Ekstremum funkcji: Różnice pomiędzy wersjami

Usunięte 195 bajtów ,  1 rok temu
m
m (drobne techniczne)
m (WP:SK+Bn)
[[Plik:Extrema1.gif|thumb|250px|Ekstrema lokalne funkcji <math>{f(x)=2x^3-9x^2+12x-3}</math> zaznaczone kolorem niebieskim (właściwe maksimum lokalne) i czerwonym (właściwe minimum lokalne)]]
'''Ekstremum funkcji''' (l. mn. ''ekstrema''; z {{łac.|extrēmus}} – najdalszy, ostatni) – maksymalna lub minimalna wartość [[Funkcja|funkcji]].
 
* Funkcja <math>f(x)</math> przyjmuje w punkcie <math>x_0</math> '''maksimum lokalne''' (odpowiednio: '''minimum lokalne'''), jeśli w pewnym [[zbiór otwarty|otwartym]]<ref>Czasem uogólnia się to na dowolne [[zbiór pusty|niepuste]] [[zbiór otwarty|zbiory otwarte]]; Zbiór musi być otwarty, żeby wykluczyć patologiczny przypadek, gdy wybierzemy punkt <math>{x_0\,}</math> na [[brzeg (matematyka)|brzegu]] tego zbioru. Wówczas np. funkcja <math>{f(x)=x\,}</math> mogłaby mieć minimum i maksimum właściwe w każdym swoim punkcie.</ref> [[otoczenie (matematyka)|otoczeniu]] tego punktu (np. w pewnym [[przedział (matematyka)|przedziale otwartym]]) funkcja nigdzie nie ma wartości większych (odpowiednio: mniejszych).
* Jeśli dodatkowo w pewnym otwartym [[otoczenie (matematyka)|sąsiedztwie]] punktu <math>x_0</math> funkcja nie ma również wartości równych <math>f(x_0),</math> to jest to '''maksimum''' (odpowiednio: '''minimum''') '''lokalne właściwe'''.
* Minima i maksima lokalne są zbiorczo nazywane '''ekstremami lokalnymi'''.
:: <math>f(x)\leqslant f(x_0)</math>
: więc nie występują w okolicy punktu <math>x_0</math> wartości funkcji większe od <math>f(x_0)</math> (ani nieporównywalne), choć mogą występować wartości równe;
* '''właściwe minimum lokalne''', jeśli w pewnym otoczeniu otwartym <math>U</math> punktu <math>x_0</math> funkcja przyjmuje wszędzie, z wyjątkiem tego punktu, wartości większe od <math>f(x_0),</math>, czyli nie ma wartości równych dla <math>x\ne x_0,</math> formalnie:
:: <math>x=x_0 \vee f(x)> f(x_0)</math> dla każdego <math>x\in U</math>
* '''właściwe maksimum lokalne''', jeśli w pewnym otoczeniu otwartym <math>U</math> punktu <math>x_0</math> funkcja przyjmuje wszędzie, z wyjątkiem tego punktu, wartości mniejsze od <math>f(x_0),</math> formalnie:
 
=== Przykład – właściwe minimum lokalne w każdym punkcie dziedziny ===
[[Plik:Strict minimum everywhere.png|thumb|350px|Fragment wykresu funkcji <math>{f\colon \mathbb{Q}\ni \frac{p}{q}\mapsto \left| \frac{q}{\operatorname{NWD}(p,q)} \right| },</math> mającej właściwe minimum w każdym punkcie swojej dziedziny. Kropki – punkty <math>{\left( \frac{p}{q},q \right)}</math> odpowiadają nieskracalnym ułamkom <math>{\frac{p}{q}}</math>]]
Niech funkcja&nbsp; <math>f</math> &nbsp;przyporządkowuje każdej [[liczby wymierne|liczbie wymiernej]] wartość mianownika wyrażającego ją [[ułamek|ułamka]] [[Ułamek#Działania na ułamkach|skróconego]]. Formalnie:
: <math>f\colon \mathbb{Q}\ni \frac{p}{q}\mapsto \left| \frac{q}{\operatorname{NWD}(p,q)} \right|,</math>
 
gdzie NWD oznacza [[największy wspólny dzielnik]].
 
Dla dowolnego wymiernego&nbsp; <math>x</math> &nbsp;istnieje otoczenie otwarte, w którym wszystkie inne liczby wymierne mają większy mianownik, a więc większą wartość funkcji&nbsp; <math>f</math><ref>Stwierdzenie to wynika z następującej obserwacji: jeżeli <math>\tfrac{p}{q}</math> jest ułamkiem nieskracalnym, to każdy ułamek <math>\tfrac{a}{b}\neq \tfrac{p}{q}</math> różniący się od <math>\tfrac{p}{q}</math> o mniej niż <math>\tfrac{1}{q^2},</math> ma mianownik większy od ''q''. Nierówność
: <math>{\left|\frac{p}{q}-\frac{a}{b}\right|< \frac{1}{q^2}}</math>
 
prowadzi bowiem do
: <math>{\left|\frac{pb-aq}{qb}\right|=\frac{|pb-aq|}{qb}<\frac{1}{q^2},}</math>
 
a wobec <math>{|pb-aq|\geqslant 1}</math> jest <math>{b>q.}</math>.</ref>. A zatem funkcja ta ma dla każdej liczby wymiernej (czyli dla każdego punktu swojej dziedziny) właściwe minimum lokalne.
 
=== Warunek wystarczający ekstremum globalnego (twierdzenie Weierstrassa) ===
 
==== Warunek konieczny istnienia ekstremum lokalnego (twierdzenie Fermata) ====
[[Plik:Extrema2.gif|thumb|250px|Funkcja <math>{g(x)=x^3}</math> nie ma dla <math>x=0</math> ekstremum lokalnego, mimo że jej pochodna w tym punkcie jest równa zero]]
[[warunek konieczny|Warunkiem koniecznym]] istnienia ekstremów lokalnych różniczkowawalnych funkcji <math>f</math> w pewnym punkcie <math>x_0\in (a,b)</math> jest
: <math>f^\prime (x_0)=0</math>
Geometrycznie oznacza to, że [[styczna]] do [[wykres funkcji|wykresu funkcji]] jest w tym punkcie prostą poziomą. Jest to tzw. '''twierdzenie Fermata'''. Udowodnijmy je:
 
jeśli <math>f</math>&nbsp; ma w punkcie <math>x_0</math> ekstremum lokalne, to istnieje takie&nbsp; <math>\epsilon > 0,</math>,&nbsp; że dla każdej liczby rzeczywistej <math>h,</math>, &nbsp;spełniającej <math>0 < |h| < \epsilon,</math>,&nbsp; zachodzi:
:: <math>(f(x_0-h) - f(x_0)) \cdot (f(x_0+h) - f(x_0)) \;\ge\; 0,</math>
 
a więc:
:: <math>\frac{f(x_0-h) - f(x_0)}{-h} \cdot \frac{f(x_0+h) - f(x_0)}{h} \;\le\; 0.</math>
 
Po przejściu do granicy, dla <math>h \rightarrow 0,</math>,&nbsp; otrzymujemy:
:: <math>(f'(x_0))^2 \;\le\; 0.</math>
 
Zatem <math>f'(x_0) =\; 0.</math>.
 
Warunek Fermata nie jest jednak [[warunek wystarczający|wystarczający]]. Np. funkcja <math>g(x)=x^3</math> nie ma ekstremum, chociaż jej pochodna <math>g^\prime(x)=3x^2</math> zeruje się dla <math>x_0=0.</math> Ekstremum może natomiast istnieć w punktach, w których nie istnieje (obustronna) pochodna skończona – funkcja <math>h(x)=x^{\frac{2}{3}}</math> ma na przykład, minimum w punkcie <math>x_0=0,</math> podczas gdy jej pochodna lewostronna w tym punkcie równa się <math>-\infty,</math> a prawostronna <math>+\infty.</math> Podobnie funkcja [[wartość bezwzględna]] ma w punkcie <math>x_0=0</math> minimum globalne, chociaż w tym punkcie nie jest różniczkowalna.
 
==== Warunek konieczny i wystarczający istnienia ekstremum lokalnego ====
Funkcja ciągła <math>f\colon [a,b]\to \mathbb{R},</math> różniczkowalna w przedziale <math>(a,b)</math> i mająca skończoną liczbę [[punkt stacjonarny|punktów stacjonarnych]] (tj. takich, w których zeruje się jej pierwsza pochodna)<ref>Założenie o skończonej liczbie punktów stacjonarnych można zastąpić słabszym żądaniem, by każdy punkt stacjonarny był izolowany. Zobacz przykład funkcji <math>{f(x)=\left\{\begin{array}{l}{x^2(1+\sin\frac{1}{x}),\; x\neq 0}\\{0,\; x=0}\end{array}\right.,}</math> której wykres pokazano w sekcji [[Ekstremum#Proste przykłady ekstremów|Proste przykłady ekstremów]].</ref> ma w punkcie <math>x_0\in (a,b)</math>:
* minimum lokalne wtedy i tylko wtedy, gdy istnieje takie <math>\delta >0,</math> że:
** <math>f^\prime(x_0)=0</math>
 
==== Inne warunki wystarczające istnienia ekstremów ====
Jeśli o funkcji <math>f,</math> określonej jak wyżej, założy się dodatkowo, że jest dwukrotnie różniczkowalna w przedziale <math>(a,b)</math> oraz jej [[Pochodna funkcji|druga pochodna]] jest ciągła, to jeżeli <math>f^\prime(x_0)=0</math> i <math>f^{\prime\prime}(x_0)\neq 0,</math> to funkcja <math>f</math> ma w punkcie <math>x_0</math> ekstremum, przy czym, gdy <math>f^{\prime\prime}(x_0)<0,</math> to jest to maksimum lokalne, a gdy <math>f^{\prime\prime}(x_0)>0,</math> to minimum lokalne<ref>'''Dowód:''' Ze [[wzór Taylora|wzoru Taylora]] dla <math>{n=2}</math> wynika:
: <math>{f(x_0+h)=f(x_0)+hf^\prime(x_0)+\frac{1}{2}h^2f^{\prime\prime}(x_0+\theta h)},</math>
 
gdzie:
: <math>{0<\theta<1},</math>
 
więc z:
: <math>{f^\prime(x_0)=0}</math>
 
wynika:
: <math>{f(x_0+h)-f(x_0)=\frac{1}{2}h^2f^{\prime\prime}(x_0+\theta h)}.</math>
 
Dla <math>{h\neq 0}</math> prawa strona ma ten sam znak, co <math>{f^{\prime\prime}(x_0+\theta h).}</math> Gdy <math>{ f^{\prime\prime}(x_0)<0,}</math> to z ciągłości <math>{f^{\prime\prime}}</math> wynika <math>{f^{\prime\prime}(x)<0}</math> w pewnym otoczeniu punktu <math>{x_0,}</math> więc w tym otoczeniu
: <math>{f(x_0+h)-f(x_0)=f(x)-f(x_0)<0}</math> dla <math>{x\neq x_0,}</math>
 
zatem istnieje maksimum w punkcie <math>{x_0.}</math> Analogicznie, istnieje minimum gdy <math>{f^{\prime\prime}(x_0)>0.}</math>.</ref>.
 
Powyższe kryterium nie rozstrzyga przypadku, gdy druga pochodna jest równa zero.
 
Jeżeli
: <math>f^\prime(x_0)=f^{\prime\prime}(x_0)=\ldots=f^{(n-1)}(x_0)=0,</math>
 
tj. wszystkie pochodne do <math>(n-1)</math>-ej zerują się w punkcie <math>x_0,</math> a <math>n</math>-ta pochodna jest różna od zera, to
 
=== Proste zagadnienia optymalizacyjne ===
[[Plik:Pudelko.png|thumb|200px|Siatka prostopadłościennego pudełka wykonana z kwadratu o boku długości <math>{a.}</math>]]
Zagadnienie wyznaczania ekstremów funkcji występuje często w fizyce i technice. Oto przykład:
 
: Pochodna
:: <math>V^\prime(x) = (a-2x)(a-6x)</math>
: zeruje się na tym przedziale w punktach <math>x_0 := \tfrac{a}{6}</math> oraz <math>x_1 := \tfrac{a}{2}</math> (w tym przypadku objętość jest zerowa). Ponieważ funkcja objętości jest dodatnia wewnątrz przedziału, 0 na jego końcach i ma we wnętrzu nie więcej niż jedno ekstremum lokalne, to ma ona dokładnie jedno maksimum, które jest zarazem lokalne i globalne ([[twierdzenie Rolle’a]]); osiągane jest ono w <math>x_0.</math>. Dlatego największa objętość pudełka wynosi
:: <math>V(x_0) = \frac{2}{27} a^3</math>
 
; Rozwiązanie 2: Wielkość <math>W(x) := 4V(x) = ABC,</math> gdzie
:: <math>A := 4x</math> oraz <math>B:=C:=a-2x</math>
: są nieujemne, przyjmuje wartość maksymalną dla tego samego <math>x</math> co <math>V(x).</math>. Ponieważ
:: <math>A+B+C =2a</math>
: jest stałe i dodatnie, więc stała i dodatnia jest też [[średnia arytmetyczna]] nieujemnych liczb <math>A, B, C.</math>
W dalszej części tego paragrafu przez <math>X</math> rozumiana jest dowolna przestrzeń unormowana, zaś przez <math>D</math> pewien jej [[zbiór otwarty|otwarty]]<ref>Por. [[Różniczka#Różniczkowalność a otwartość zbioru|Różniczkowalność a otwartość zbioru]].</ref> podzbiór. Funkcja <math>f\colon D\to\mathbb{R}</math> musi być [[pochodna Frécheta|różniczkowalna (w sensie Frécheta)]] w zbiorze <math>D.</math> Przez zapis <math>f^\prime(x_0)</math> lub <math>df(x_0)</math> rozumie się [[różniczka|różniczkę]] funkcji <math>f,</math> która jest [[Przekształcenie liniowe|odwzorowaniem liniowym]] i ciągłym przestrzeni <math>X</math> o wartościach w <math>\mathbb{R}.</math> Pochodna <math>n</math>-tego rzędu funkcji (<math>n</math>-krotnie różniczkowalnej) jest [[Przekształcenie wieloliniowe|odwzorowaniem <math>n</math>-liniowym]] przestrzeni <math>X\times \ldots \times X</math> o wartościach rzeczywistych i oznaczana jest przez <math>f^{(n)}(x_0)</math> lub <math>df^n(x_0).</math>
 
Podobnie jak dla funkcji rzeczywistych, warunkiem koniecznym istnienia ekstremum w punkcie <math>x_0\in D</math> jest, aby wartość funkcji będącej różniczką w <math>x_0\in D</math> wynosiła zero dla wszystkich punktów w pewnym otoczeniu <math>x_0</math> (<math>(f^\prime(x_0)\equiv 0).</math>). Punkt, w którym różniczka się zeruje (jest funkcją stale równą zero w pewnym otoczeniu <math>x_0</math>), nazywany jest '''punktem stacjonarnym'''.
 
Tak jak w przypadku funkcji jednej zmiennej, w punkcie stacjonarnym wcale nie musi być ekstremum. Na przykład dla funkcji <math>g\colon \mathbb{R}^2\to \mathbb{R}</math> danej wzorem <math>g(x,y)=xy,</math> której wykresem jest [[paraboloida hiperboliczna]], [[pochodna cząstkowa|pochodne cząstkowe]] <math>g^\prime_x(x,y)=x,\; g^\prime_y(x,y)=y</math> są jednocześnie równe zeru<ref>Jeśli którakolwiek pochodna kierunkowa, w tym pochodna cząstkowa, jest różna od zera, to również różniczka jest niezerowa (o ile istnieje). W tym przykładzie obie pochodne cząstkowe są ciągłe, <!-- a więc korzystając z twierdzenia??? – z lematu Schwarza --> istnieje również pochodna Frécheta i <math>{ f^\prime(x_0)\equiv 0}.</math>.</ref> tylko w punkcie <math>(0,0),</math> w którym <math>f(x,y)=0.</math> Jednocześnie widać (por. rysunek obok), że w dowolnym otoczeniu zera funkcja przybiera zarówno wartości dodanie, jak i ujemne, a więc nie może być w nim ekstremum.
 
=== Definicje pomocnicze ===
# Wyznaczamy wszystkie punkty <math>(x_0,y_0)\in D</math> takie, że pochodne cząstkowe<br /><br /><math>\left\{ \begin{matrix}
f^\prime_x(x_0,y_0)=0 \\
f^\prime_y(x_0,y_0)=0 \\
\end{matrix}\right.</math> (rozwiązując ten układ równań)<ref>W przypadku funkcji różniczkowalnej <math>{z=f(x,y)}</math> równości te mają prosty sens geometryczny: [[płaszczyzna styczna]] do powierzchni <math>{z=f(x,y)}</math> w jej punkcie odpowiadającym ekstremum powinna być równoległa do płaszczyzny <math>{xy.}</math>.</ref>
# Dla każdego punktu z osobna badamy znak [[Macierz Hessego|wyznacznika Hessego]]<br /><br /><math>\delta(x_0,y_0)=\left|\begin{array}{ll}f^{\prime\prime}_{xx}(x_0,y_0) & f^{\prime\prime}_{xy}(x_0,y_0) \\ f^{\prime\prime}_{yx}(x_0,y_0) & f^{\prime\prime}_{yy}(x_0,y_0)\end{array}\right|</math><br /><br />Na mocy [[lemat Schwarza|lematu Schwarza]] <math>f^{\prime\prime}_{xy}(x_0,y_0)=f^{\prime\prime}_{yx}(x_0,y_0),</math> więc<br /><br /><math>\delta(x_0,y_0)=f^{\prime\prime}_{xx}(x_0,y_0)f^{\prime\prime}_{yy}(x_0,y_0)-(f^{\prime\prime}_{xy}(x_0,y_0))^2.</math>
# Jeżeli w danym punkcie <math>(x_0, y_0)</math> wyznacznik <math>\delta(x_0,y_0)<0,</math> to w tym punkcie nie ma ekstremum, jeśli <math>\delta(x_0,y_0)=0,</math> to w pewnych przypadkach może istnieć ekstremum, a pewnych nie<ref>Np. funkcja <math>{f(x,y)=x^4+y^4}</math> ma w punkcie <math>{(0,0)}</math> minimum, natomiast funkcja <math>{g(x,y)=x^3+y^2}</math> nie ma w punkcie <math>{(0,0)}</math> ekstremum lokalnego.</ref>. I ostatecznie, jeżeli <math>\delta(x_0,y_0)>0,</math> to istnieje ekstremum lokalne w tym punkcie, jeśli:
:* <math>f^{\prime\prime}_{xx}(x_0,y_0)>0</math> co dla <math>\delta(x_0,y_0)>0</math> jest równoważne <math>f^{\prime\prime}_{yy}(x_0,y_0)>0,</math> to jest to minimum lokalne,
:* <math>f^{\prime\prime}_{xx}(x_0,y_0)<0</math> co dla <math>\delta(x_0,y_0)>0</math> jest równoważne <math>f^{\prime\prime}_{yy}(x_0,y_0)<0</math> to jest to maksimum lokalne.
 
=== Przykład ===
[[Plik:Extrema3.gif|thumb|250px|Wykres funkcji <math>{f\left( {x,y} \right) = 2x^3 - y^3 + 12x^2 + 27y}</math> z zaznaczonymi ekstremami lokalnymi i punktami siodłowymi]]
Znaleźć ekstrema funkcji
: <math>f\left( {x,y} \right) = 2x^3 - y^3 + 12x^2 + 27y.</math>
 
Obliczamy pierwsze pochodne cząstkowe funkcji <math>f</math> i przyrównujemy do zera:
: <math>\left\{ \begin{matrix}
f^\prime_x(x,y) = 0 \Leftrightarrow 6x^2 + 24x = 0 \\
f^\prime_y(x,y) = 0 \Leftrightarrow -3y^2 + 27 = 0 \\
\end{matrix} \right.</math>
 
 
Podobnie jak w poprzednim przypadku, o funkcji <math>F</math> zakładamy, że jest dwukrotnie różniczkowalna w pewnym otwartym podzbiorze <math>D\subset\mathbb{R}^2</math> oraz <math>E</math> jest zbiorem punktów <math>(x,y)</math> obszaru, w których
: <math>F(x,y)=0.</math>
 
Na mocy [[Funkcja uwikłana#Funkcje rzeczywiste|twierdzenia o funkcji uwikłanej]], wzór
: <math>y^\prime(x)=-\frac{F^\prime_x(x,y)}{F^\prime_y(x,y)},</math>
 
gdzie <math>y=y(x),</math> a w konsekwencji także
: <math>y^{\prime\prime}=-\frac{F^{\prime\prime}_{xx}(F^{\prime}_{y}prime_y)^2-2F^{\prime\prime}_{xy}F^\prime_xF^\prime_y+F^{\prime\prime}_{yy}(F^{\prime}_{x}prime_x)^2}{(F^\prime_y)^3}</math>
 
pozwala wyznaczyć ekstrema funkcji <math>y</math> uwikłanej w równaniu <math>F(x,y)=0</math><ref>Wzór ten można otrzymać różniczkując tożsamość <math>{F^\prime_x+F^\prime_yy^\prime(x)=0}</math> dla <math>{x\in (x_0-\delta, x_0+\delta)}.</math>.</ref>. W tym celu należy wyznaczyć punkty, w których
: <math>F(x,y)=0, y^\prime=0, y^{\prime\prime}\neq 0.</math>
 
Dwa ostatnie warunki równoważne są poniższym, tj.
: <math>F^\prime_x=0, -\frac{F^{\prime\prime}_{xx}}{F^\prime_y}\neq 0.</math>
 
=== Przykład ===
Znaleźć ekstrema funkcji <math>y,</math> określonej równaniem
: <math>F(x,y)=x^2-2xy-3y^2+4=0.</math>
 
Ponieważ
: <math>F^\prime_x(x,y)=2x-2y=0,</math>
 
tylko gdy <math>x=y,</math> więc wstawiając to do równania
 
oraz
: <math>F^{\prime\prime}_{xx}(x,y)=2,</math>
 
zatem w punkcie <math>(1,1)</math> druga pochodna
: <math>y^{\prime\prime}(-1)=-\tfrac{2}{-8}=\tfrac{1}{4}>0,</math>
 
czyli w tym punkcie jest minimum lokalne, natomiast w punkcie <math>(-1,-1),</math>
== Rachunek wariacyjny ==
{{osobny artykuł|Rachunek wariacyjny}}
[[Plik:Braquistócrona.gif|thumb|260px|Na czerwono zaznaczono fragment [[cykloida|cykloidy]] – brachistochronę. [[Punkt materialny]] stacza się od punktu <math>{A}</math> do punktu <math>{B}</math> w najkrótszym czasie właśnie po tej krzywej.]]
Ważnymi obiektami matematycznymi są te [[funkcjonał]]y, które danej funkcji przypisują liczbę rzeczywistą, np. długość [[łuk krzywej|łuku]] jej wykresu. Przestrzeń funkcyjna jest przestrzenią unormowaną, opisywaną w jednej z wcześniejszych sekcji, jednak badanie ekstremów tych funkcjonałów jest szczególnie istotne ze względu na zastosowania w fizyce i technice – przykładowo jeśli funkcja będąca argumentem funkcjonału opisuje kształt [[śmigło|śmigła]] samolotu, a wartości funkcjonału opisują wydajność śmigła, to znalezienie globalnego maksimum jest równoważne wyliczeniu jaki kształt śmigła zapewni największą wydajność.
 
 
zakłada się, że jest funkcją o wartościach wektorowych, dwukrotnie różniczkowalną w sposób ciągły. W celu wyznaczenia toru cząstki, określa się funkcjonał
: <math>F(q)=\int\limits_a^b L\left(t, q_1(t), \ldots, q_n(t), \frac{dq_1}{dt}(t), \ldots, \frac{dq_n}{dt}(t)\right)dt.</math>
 
Ekstremów tego funkcjonału szuka się w klasie funkcji dwukrotnie różniczkowalnych, przyjmujących na końcach przedziału <math>[a,b]</math> wartości
: <math>q_1(a), q_1(b), \ldots, q_n(a), q_n(b).</math>
 
Jest to problem z tzw. [[Zagadnienie brzegowe|ustalonym brzegiem]]. Okazuje się, że funkcje <math>q_i,</math> dla których funkcjonał <math>F</math> przyjmuje ekstremum, spełniają układ [[Równanie różniczkowe cząstkowe|równań różniczkowych cząstkowych]], zwanych '''równaniami Eulera-Lagrange’a''', postaci:
: <math>\frac{\partial L}{\partial q _{k}q_k} - \frac{d}{dt} \left(\frac{\partial L}{\partial \dot{q} _{k}_k}\right) = 0, \;\;quad 1\leqslant k \leqslant n,</math>
 
gdzie:
: <math>\dot{q} _{k}_k=\frac{dq_k}{dt}.</math>
 
== Ekstrema warunkowe ==
 
przy warunku dodatkowym
: <math>g(x,y,z)=0.</math>
 
W paragrafie tym podamy ogólną definicję ekstremum warunkowego i ogólne wyniki tej teorii, badanie ekstremów warunkowych funkcji tylko dwóch zmiennych zostanie omówione w następnym ustępie.
 
Jeśli <math>X</math> jest przestrzenią topologiczną, <math>Y</math> [[przestrzeń liniowa|przestrzenią liniową]], <math>G\colon X\to Y</math> oraz <math>M=\{x\in X\colon\; G(x)=0\},</math> to mówimy że funkcja <math>f\colon X\to \mathbb{R}</math> ma w punkcie <math>x_0\in M</math> '''minimum''' ('''maksimum''') '''lokalne przy warunku''' <math>M</math> (albo '''związane zbiorem''' <math>M</math>), jeśli istnieje otoczenie <math>U</math> punktu <math>x_0</math> takie, że <math>f(x_0)\leqslant f(x),</math> względnie <math>f(x_0)\geqslant f(x)</math> dla <math>x\in U\cap M.</math>
 
=== Warunek konieczny istnienia ekstremum warunkowego ===
: <math>\left(f^{(2n)}(x_0)-\Lambda\circ G^{(2n)}(x_0)\right)(h)</math>
 
jest dodatnio<ref>Uwaga: w tym wypadku pojęcie dodatniej (ujemnej) określoności zostaje rozszerzone na [[Przekształcenie wieloliniowe|funkcjonały ''n''-liniowe]], tj. powiemy że funkcjonał <math>{n}</math>-liniowy <math>{\varphi\colon X\times\ldots\times X\to \mathbb{R}}</math> jest dodatnio (ujemnie) określony, jeśli istnieje takie <math>{c>0,}</math> że <math>{\varphi(h,\ldots, h)\geqslant c\|h\|^n \; (\leqslant -c\|h\|^n)}</math> dla wszelkich <math>{h\in X.}</math>.</ref> (ujemnie) określona dla <math>h\in X_1,</math> to funkcja <math>f</math> ma w punkcie <math>x_0</math> minimum (maksimum) warunkowe.
 
=== Ekstrema warunkowe w <math>\mathbb{R}^n</math> ===
Badanie ekstremów warunkowych przekształceń dowolnych przestrzeni Banacha jest rzeczą trudną. Już samo spełnienie założeń twierdzenia Lusternika może okazać się niemożliwe, gdyż nie każdą przestrzeń unormowaną da się rozłożyć na topologiczną sumę prostą jej podprzestrzeni<ref>Da się to zrobić w przypadku [[przestrzeń Hilberta|przestrzeni Hilberta]] – [[twierdzenie o rozkładzie ortogonalnym]] mówi, że dla każdej [[zbiór domknięty|domkniętej]] podprzestrzeni przestrzeni Hilberta istnieje [[dopełnienie ortogonalne]]. W szczególności, rozkład taki jest możliwy jeżeli <math>{X}</math> jest przestrzenią skończenie wymiarową.</ref>. Duża część zagadnień praktycznych sprowadza się do badania ekstremów warunkowych w przypadku gdy <math>X=\mathbb{R}^n,\; Y=\mathbb{R}^m,\; n\geqslant m,</math> a odwzorowanie <math>G\colon \mathbb{R}^n\to \mathbb{R}^m</math> reprezentowane jest przez układ <math>m</math> funkcji o <math>n</math> zmiennych, tj. <math>G=(G_1,\ldots, G_m).</math>
 
Szukanie ekstremów warunkowych funkcji <math>f\colon \mathbb{R}^n\to\mathbb{R},</math> będących zarazem punktami regularnymi<ref name="punktreg">Por. [[Punkt regularny#Szczególne przypadki|punkt regularny (szczególne przypadki)]].</ref>, sprowadza się do rozwiązania układu równań operatorowych
 
dla
: <math>h\in X_1=\ker G^\prime(x_0),</math>
 
co sprowadza się do badania [[forma kwadratowa|formy kwadratowej]]
: <math>\sum_{i,j=1}^n\left(\frac{\partial^2f(x)}{\partial x_i\partial x_j}-\sum_{k=1}^m\lambda_k\frac{\partial^2 G_k(x)}{\partial x_j\partial x_j}\right)h_ih_j</math>
 
gdzie:
: <math>h\in X_1, h=(h_1, \ldots, h_n).</math>
 
Warunek <math>h\in X_1</math> jest równoważny równaniu
: <math>G^\prime(x)h=0,</math>
 
które w postaci macierzowej przybiera formę
: <math>\sum_{i=1}^n\frac{\partial G_k(x)}{\partial x_i}h_i=0,\; k=1,2,\ldots, m.</math>
 
Do badania określoności tej macierzy można stosować kryterium Sylvestera.
 
na kole jednostkowym, tj. przy warunku
: <math>x^2+y^2=1.</math>
 
Zatem funkcja <math>G</math> jest postaci
: <math>G(x,y)=x^2+y^2-1,</math>
 
a więc funkcja <math>F</math> wyraża się wzorem:
: <math>F(x,y)=f(x,y)+\lambda G(x,y)=</math>
:: <math>=x+y + \lambda (x^2 + y^2 - 1).</math>
 
Wszystkie punkty, które mogą być ekstremami warunkowymi są rozwiązaniami układu równań
: <math>\left\{\begin{array}{lll}
F^\prime_x(x,y)= 1 + 2 \lambda x &= 0 \\
F^\prime_y(x,y)= 1 + 2 \lambda y &= 0 \\
 
Podstawiając <math>x=y, x\neq 0</math> do pierwszego równania uzyskujemy: <math>\lambda=-\tfrac{1}{2x}.</math> Stosując podobne podstawienie do trzeciego równania, dostaje się warunek <math>2x^2=1,</math> skąd wynika <math>x=\pm\tfrac{\sqrt{2}}{2}.</math> Funkcja <math>f</math> może zatem przyjmować ekstrema tylko w punktach <math>\left( -\tfrac{\sqrt{2}}{2}, -\tfrac{\sqrt{2}}{2}\right) , \left( \tfrac{\sqrt{2}}{2}, \tfrac{\sqrt{2}}{2}\right).</math> Ponieważ okrąg jest zbiorem domkniętym i ograniczonym (czyli [[przestrzeń zwarta|zwartym]]<ref>Na mocy [[twierdzenie Heinego-Borela|twierdzenia Heinego-Borela]].</ref>), więc na mocy twierdzenia Weierstrassa, funkcja <math>f</math> osiąga w tych punktach ekstrema (warunkowe):
* minimum warunkowe: <math>f\left( -\tfrac{\sqrt{2}}{2}, -\tfrac{\sqrt{2}}{2}\right) =-\sqrt{2},</math>
* maksimum warunkowe: <math>f\left( \tfrac{\sqrt{2}}{2}, \tfrac{\sqrt{2}}{2}\right) =\sqrt{2}.</math>
 
Warto zauważyć, że funkcja <math>f,</math> określona na całej płaszczyźnie (bez dodatkowego warunku) nie ma ekstremów.
=== Przykład – problem maksymalnej entropii ===
Problem polega na znalezieniu [[Dyskretny rozkład prawdopodobieństwa|dyskretnego rozkładu zmiennej losowej]] maksymalizującego [[Entropia (teoria informacji)|entropię]]. Funkcja entropii [[prawdopodobieństwo|prawdopodobieństw]] <math>p_1, \ldots, p_n</math> wyraża się wzorem
: <math>f(p_1,p_2,\ldots,p_n) = -\sum_{k=1}^n p_k\log_2 p_k.</math>
 
Oczywiście, suma prawdopodobieństw <math>p_1, \ldots, p_n</math> jest równa jeden, więc warunek na <math>G</math> przyjmuje postać
: <math>G(p_1,p_2,\ldots,p_n)=\sum_{k=1}^n p_k-1.</math>
 
Stosując metodę mnożników Lagrange’a, dostajemy [[układ równań|układ]] <math>n</math> równań:
: <math>\frac{\partial}{\partial p_k}(f(p_1,p_2,\ldots,p_n)+\lambda (G(p_1,p_2,\ldots,p_n)-1))=0,\;\; 1\leqslant k\leqslant n,</math>
 
który sprowadza się do układu
: <math>\frac{\partial}{\partial p_k}\left(-\sum_{k=1}^n p_k \log_2 p_k + \lambda (\sum_{k=1}^n p_k - 1) \right) = 0,\;\; 1\leqslant k\leqslant n.</math>
 
Różniczkując każde równanie <math>n</math>-krotnie, powyższy układ sprowadza się do poniższego:
: <math>-\left(\frac{1}{\ln 2}+\log_2 p_k \right) + \lambda = 0,\;\; 1\leqslant k\leqslant n.</math>
 
Z powyższego wynika, że wszystkie prawdopodobieństwa są równe, tj. <math>p_1=\ldots=p_n,</math> a ponieważ ich suma jest równa jeden, wynika stąd, że dla dowolnego <math>1\leqslant k\leqslant n</math>:
: <math>p_k=\frac{1}{n}.</math>
 
== Gradacyjna analiza odpowiedniości ==
Ciekawym praktycznym zastosowaniem ekstremum lokalnego w przestrzeni par permutacji jest algorytm [[gradacyjna analiza danych|statystyczny]], zwany [[gradacyjna analiza odpowiedniości|gradacyjną analizą odpowiedniości]] (''Grade Correspondence Analysis'';, GCA).
 
Algorytm ma na celu przekształcenie badanych [[skala nominalna|nominalnych cech statystycznych]] w [[Skala porządkowa|cechy porządkowe]] tak, aby [[korelacja rangowa]] pomiędzy nimi w [[Sprawdzian krzyżowy|zbiorze uczącym]] była maksymalna<ref>Podobny problem ze zwykłą korelacją Pearsona rozwiązuje klasyczna [[analiza odpowiedniości]].</ref>.