Ekstremum funkcji: Różnice pomiędzy wersjami

Dodane 48 bajtów ,  1 rok temu
m
drobne techniczne
m (WP:SK+Bn)
m (drobne techniczne)
Niech funkcja&nbsp; <math>f</math> &nbsp;przyporządkowuje każdej [[liczby wymierne|liczbie wymiernej]] wartość mianownika wyrażającego ją [[ułamek|ułamka]] [[Ułamek#Działania na ułamkach|skróconego]]. Formalnie:
: <math>f\colon \mathbb{Q}\ni \frac{p}{q}\mapsto \left| \frac{q}{\operatorname{NWD}(p,q)} \right|</math>
 
gdzie NWD oznacza [[największy wspólny dzielnik]].
 
Dla dowolnego wymiernego&nbsp; <math>x</math> &nbsp;istnieje otoczenie otwarte, w którym wszystkie inne liczby wymierne mają większy mianownik, a więc większą wartość funkcji&nbsp; <math>f</math><ref>Stwierdzenie to wynika z następującej obserwacji: jeżeli <math>\tfrac{p}{q}</math> jest ułamkiem nieskracalnym, to każdy ułamek <math>\tfrac{a}{b}\neq \tfrac{p}{q}</math> różniący się od <math>\tfrac{p}{q}</math> o mniej niż <math>\tfrac{1}{q^2},</math> ma mianownik większy od ''q''. Nierówność
: <math>{\left|\frac{p}{q}-\frac{a}{b}\right|< \frac{1}{q^2}}</math>
 
prowadzi bowiem do
: <math>{\left|\frac{pb-aq}{qb}\right|=\frac{|pb-aq|}{qb}<\frac{1}{q^2},}</math>
 
a wobec <math>{|pb-aq|\geqslant 1}</math> jest <math>{b>q.}</math>.</ref>. A zatem funkcja ta ma dla każdej liczby wymiernej (czyli dla każdego punktu swojej dziedziny) właściwe minimum lokalne.
 
 
=== Funkcje różniczkowalne ===
W dalszej części sekcji rozważane będą funkcje <math>f\colon [a,b] \to \mathbb R</math> [[funkcja ciągła|ciągłe]] oraz [[funkcja różniczkowalna|różniczkowalne]] w przedziale <math>(a,b).</math> Geometrycznie oznacza to, że ich wykres jest „nieprzerwany” i „gładki”, czyli ma w każdym punkcie [[styczna|styczną]].
Geometrycznie oznacza to, że ich wykres jest „nieprzerwany” i „gładki”, czyli ma w każdym punkcie [[styczna|styczną]].
 
==== Warunek konieczny istnienia ekstremum lokalnego (twierdzenie Fermata) ====
[[warunek konieczny|Warunkiem koniecznym]] istnienia ekstremów lokalnych różniczkowawalnych funkcji <math>f</math> w pewnym punkcie <math>x_0\in (a,b)</math> jest
: <math>f^\prime (x_0)=0</math>
 
Geometrycznie oznacza to, że [[styczna]] do [[wykres funkcji|wykresu funkcji]] jest w tym punkcie prostą poziomą. Jest to tzw. '''twierdzenie Fermata'''. Udowodnijmy je:
 
jeśli <math>f</math>&nbsp; ma w punkcie <math>x_0</math> ekstremum lokalne, to istnieje takie&nbsp; <math>\epsilon > 0</math>,&nbsp; że dla każdej liczby rzeczywistej <math>h</math>, &nbsp;spełniającej <math>0 < |h| < \epsilon</math>,&nbsp; zachodzi:
 
:: <math>(f(x_0-h) - f(x_0)) \cdot (f(x_0+h) - f(x_0)) \;\ge\; 0</math>
 
a więc:
 
:: <math>\frac{f(x_0-h) - f(x_0)}{-h} \cdot \frac{f(x_0+h) - f(x_0)}{h} \;\le\; 0</math>
 
Po przejściu do granicy, dla <math>h \rightarrow 0</math>,&nbsp; otrzymujemy:
 
:: <math>(f'(x_0))^2 \;\le\; 0</math>
 
Jeśli o funkcji <math>f,</math> określonej jak wyżej, założy się dodatkowo, że jest dwukrotnie różniczkowalna w przedziale <math>(a,b)</math> oraz jej [[Pochodna funkcji|druga pochodna]] jest ciągła, to jeżeli <math>f^\prime(x_0)=0</math> i <math>f^{\prime\prime}(x_0)\neq 0,</math> to funkcja <math>f</math> ma w punkcie <math>x_0</math> ekstremum, przy czym, gdy <math>f^{\prime\prime}(x_0)<0,</math> to jest to maksimum lokalne, a gdy <math>f^{\prime\prime}(x_0)>0,</math> to minimum lokalne<ref>'''Dowód:''' Ze [[wzór Taylora|wzoru Taylora]] dla <math>{n=2}</math> wynika:
: <math>{f(x_0+h)=f(x_0)+hf^\prime(x_0)+\frac{1}{2}h^2f^{\prime\prime}(x_0+\theta h)}</math>
 
gdzie
: <math>{0<\theta<1}</math>
 
więc z:
: <math>{f^\prime(x_0)=0}</math>
 
wynika:
: <math>{f(x_0+h)-f(x_0)=\frac{1}{2}h^2f^{\prime\prime}(x_0+\theta h)}</math>
 
Dla <math>{h\neq 0}</math> prawa strona ma ten sam znak, co <math>{f^{\prime\prime}(x_0+\theta h).}</math> Gdy <math>{ f^{\prime\prime}(x_0)<0,}</math> to z ciągłości <math>{f^{\prime\prime}}</math> wynika <math>{f^{\prime\prime}(x)<0}</math> w pewnym otoczeniu punktu <math>{x_0,}</math> więc w tym otoczeniu
: <math>{f(x_0+h)-f(x_0)=f(x)-f(x_0)<0}</math> dla <math>{x\neq x_0,}</math>
 
zatem istnieje maksimum w punkcie <math>{x_0.}</math> Analogicznie, istnieje minimum gdy <math>{f^{\prime\prime}(x_0)>0.}</math>.</ref>.
 
Powyższe kryterium nie rozstrzyga przypadku, gdy druga pochodna jest równa zero.
 
Jeżeli
: <math>f^\prime(x_0)=f^{\prime\prime}(x_0)=\ldots=f^{(n-1)}(x_0)=0</math>
 
tj. wszystkie pochodne do <math>(n-1)</math>-ej zerują się w punkcie <math>x_0,</math> a <math>n</math>-ta pochodna jest różna od zera, to
* gdy <math>n</math> jest liczbą [[Parzystość liczb|parzystą]], to <math>f</math> ma ekstremum w punkcie <math>x_0,</math> przy czym jest to maksimum, gdy <math>f^{(n)}(x_0)<0</math> lub minimum, gdy <math>f^{(n)}(x_0)>0,</math>
Z założenia zerowania się pochodnych do <math>(n-1),</math> można wyprowadzić korzystając ze [[wzór Taylora|wzoru Taylora]]:
: <math>f(x_0+h)-f(x_0)=\frac{h^n}{n!}f^{(n)}(x_0+\theta h)</math>
 
dla pewnego <math>0<\theta<1.</math>
 
W dalszej części tego paragrafu przez <math>X</math> rozumiana jest dowolna przestrzeń unormowana, zaś przez <math>D</math> pewien jej [[zbiór otwarty|otwarty]]<ref>Por. [[Różniczka#Różniczkowalność a otwartość zbioru|Różniczkowalność a otwartość zbioru]].</ref> podzbiór. Funkcja <math>f\colon D\to\mathbb{R}</math> musi być [[pochodna Frécheta|różniczkowalna (w sensie Frécheta)]] w zbiorze <math>D.</math> Przez zapis <math>f^\prime(x_0)</math> lub <math>df(x_0)</math> rozumie się [[różniczka|różniczkę]] funkcji <math>f,</math> która jest [[Przekształcenie liniowe|odwzorowaniem liniowym]] i ciągłym przestrzeni <math>X</math> o wartościach w <math>\mathbb{R}.</math> Pochodna <math>n</math>-tego rzędu funkcji (<math>n</math>-krotnie różniczkowalnej) jest [[Przekształcenie wieloliniowe|odwzorowaniem <math>n</math>-liniowym]] przestrzeni <math>X\times \ldots \times X</math> o wartościach rzeczywistych i oznaczana jest przez <math>f^{(n)}(x_0)</math> lub <math>df^n(x_0).</math>
 
Podobnie jak dla funkcji rzeczywistych, warunkiem koniecznym istnienia ekstremum w punkcie <math>x_0\in D</math> jest, aby wartość funkcji będącej różniczką w <math>x_0\in D</math> wynosiła zero dla wszystkich punktów w pewnym otoczeniu <math>x_0</math> (<math>f^\prime(x_0)\equiv 0</math>). Punkt, w którym różniczka się zeruje (jest funkcją stale równą zero w pewnym otoczeniu <math>x_0</math>), nazywany jest '''punktem stacjonarnym'''.
Punkt, w którym różniczka się zeruje (jest funkcją stale równą zero w pewnym otoczeniu <math>x_0</math>), nazywany jest '''punktem stacjonarnym'''.
 
Tak jak w przypadku funkcji jednej zmiennej, w punkcie stacjonarnym wcale nie musi być ekstremum. Na przykład dla funkcji <math>g\colon \mathbb{R}^2\to \mathbb{R}</math> danej wzorem <math>g(x,y)=xy,</math> której wykresem jest [[paraboloida hiperboliczna]], [[pochodna cząstkowa|pochodne cząstkowe]] <math>g^\prime_x(x,y)=x,\; g^\prime_y(x,y)=y</math> są jednocześnie równe zeru<ref>Jeśli którakolwiek pochodna kierunkowa, w tym pochodna cząstkowa, jest różna od zera, to również różniczka jest niezerowa (o ile istnieje). W tym przykładzie obie pochodne cząstkowe są ciągłe, <!-- a więc korzystając z twierdzenia??? – z lematu Schwarza --> istnieje również pochodna Frécheta i <math>{ f^\prime(x_0)\equiv 0}</math>.</ref> tylko w punkcie <math>(0,0),</math> w którym <math>f(x,y)=0.</math> Jednocześnie widać (por. rysunek obok), że w dowolnym otoczeniu zera funkcja przybiera zarówno wartości dodanie, jak i ujemne, a więc nie może być w nim ekstremum.
 
Obliczamy pierwsze pochodne cząstkowe funkcji <math>f</math> i przyrównujemy do zera:
: <math>\left\{ \begin{matrix}
\left\{ \begin{matrix}
f^\prime_x(x,y) = 0 \Leftrightarrow 6x^2 + 24x = 0 \\
f^\prime_y(x,y) = 0 \Leftrightarrow -3y^2 + 27 = 0 \\
\end{matrix} \right.</math>
 
</math>
Układ równań ma dokładnie 4 rozwiązania, którymi są punkty
: <math>a=(0,3),\ b=(0,-3),\ c=(-4,-3),\ d=(-4,3)</math>
Podobnie jak w poprzednim przypadku, o funkcji <math>F</math> zakładamy, że jest dwukrotnie różniczkowalna w pewnym otwartym podzbiorze <math>D\subset\mathbb{R}^2</math> oraz <math>E</math> jest zbiorem punktów <math>(x,y)</math> obszaru, w których
: <math>F(x,y)=0</math>
 
Na mocy [[Funkcja uwikłana#Funkcje rzeczywiste|twierdzenia o funkcji uwikłanej]], wzór
: <math>y^\prime(x)=-\frac{F^\prime_x(x,y)}{F^\prime_y(x,y)}</math>
 
gdzie <math>y=y(x),</math> a w konsekwencji także
: <math>y^{\prime\prime}=-\frac{F^{\prime\prime}_{xx}(F^{\prime}_{y})^2-2F^{\prime\prime}_{xy}F^\prime_xF^\prime_y+F^{\prime\prime}_{yy}(F^{\prime}_{x})^2}{(F^\prime_y)^3}</math>
 
pozwala wyznaczyć ekstrema funkcji <math>y</math> uwikłanej w równaniu
pozwala wyznaczyć ekstrema funkcji <math>y</math> uwikłanej w równaniu <math>F(x,y)=0</math><ref>Wzór ten można otrzymać różniczkując tożsamość <math>{F^\prime_x+F^\prime_yy^\prime(x)=0}</math> dla <math>{x\in (x_0-\delta, x_0+\delta)}</math>.</ref>. W tym celu należy wyznaczyć punkty, w których
: <math>F(x,y)=0, y^\prime=0, y^{\prime\prime}\neq 0</math>
 
Dwa ostatnie warunki równoważne są poniższym, tj.
: <math>F^\prime_x=0, -\frac{F^{\prime\prime}_{xx}}{F^\prime_y}\neq 0</math>
Ponieważ
: <math>F^\prime_x(x,y)=2x-2y=0</math>
 
tylko gdy <math>x=y,</math> więc wstawiając to do równania
: <math>F(x,y)=0</math>
 
otrzymujemy jako jedyne rozwiązania punkty <math>(1,1), (-1,-1).</math>
 
Ponieważ
: <math>F^\prime_y(x,y)=-2x-6y</math>
 
oraz
: <math>F^{\prime\prime}_{xx}(x,y)=2</math>
 
zatem w punkcie <math>(1,1)</math> druga pochodna
: <math>y^{\prime\prime}(-1)=-\tfrac{2}{-8}=\tfrac{1}{4}>0</math>
 
czyli w tym punkcie jest minimum lokalne, natomiast w punkcie <math>(-1,-1),</math>
: <math>y^{\prime\prime}(-1)=\tfrac{-2}{8}=-\tfrac{1}{4}<0,</math>
 
czyli w tym punkcie jest maksimum lokalne funkcji <math>y.</math>
 
Formalnie, o funkcji <math>L</math> zakłada się, że jest określona na <math>\mathbb{R}^{2n+1}</math> oraz jest dwukrotnie różniczkowalna w sposób ciągły. Dalej, o funkcji
: <math>[a,b]\ni t \mapsto q(t)=(q_1(t), \ldots, q_n(t))\in \mathbb{R}^n</math>
 
zakłada się, że jest funkcją o wartościach wektorowych, dwukrotnie różniczkowalną w sposób ciągły. W celu wyznaczenia toru cząstki, określa się funkcjonał
: <math>F(q)=\int\limits_a^b L\left(t, q_1(t), \ldots, q_n(t), \frac{dq_1}{dt}(t), \ldots, \frac{dq_n}{dt}(t)\right)dt</math>
 
Ekstremów tego funkcjonału szuka się w klasie funkcji dwukrotnie różniczkowalnych, przyjmujących na końcach przedziału <math>[a,b]</math> wartości
: <math>q_1(a), q_1(b), \ldots, q_n(a), q_n(b)</math>
 
Jest to problem z tzw. [[Zagadnienie brzegowe|ustalonym brzegiem]]. Okazuje się, że funkcje <math>q_i,</math> dla których funkcjonał <math>F</math> przyjmuje ekstremum, spełniają układ [[Równanie różniczkowe cząstkowe|równań różniczkowych cząstkowych]], zwanych '''równaniami Eulera-Lagrange’a''', postaci:
: <math>\frac{\partial L}{\partial q _{k}} - \frac{d}{dt} \left(\frac{\partial L}{\partial \dot{q} _{k}}\right) = 0,\;\; 1\leqslant k \leqslant n</math>
 
gdzie
: <math>\dot{q} _{k}=\frac{dq_k}{dt}.</math>
W matematyce i fizyce zachodzi często potrzeba badania ekstremów funkcji przy pewnych dodatkowych warunkach. Chcąc np. znaleźć odległość punktu <math>(x_0, y_0, z_0)\in\mathbb{R}^3</math> od [[Rozmaitość topologiczna|hiperpowierzchni]] zadanej równaniem <math>g(x,y,z)=0</math> należy zbadać minima funkcji
: <math>f(x,y,z)=(x-x_0)^2+(y-y_0)^2+(z-z_0)^2</math>
 
przy warunku dodatkowym
: <math>g(x,y,z)=0</math>
 
W paragrafie tym podamy ogólną definicję ekstremum warunkowego i ogólne wyniki tej teorii, badanie ekstremów warunkowych funkcji tylko dwóch zmiennych zostanie omówione w następnym ustępie.
 
 
Niech <math>f</math> będzie funkcją określoną na otwartym podzbiorze <math>U</math> przestrzeni Banacha <math>X</math> o wartościach w <math>\mathbb{R}</math> oraz niech <math>x_0\in X</math> będzie punktem regularnym zbioru <math>M=G^{-1}(0).</math> Jeżeli funkcja <math>f</math> jest różniczkowalna w punkcie <math>x_0</math> i ma w tym punkcie ekstremum warunkowe, to
: <math>f^\prime(x_0)x_1=0</math> &emsp; dla każdego <math>x_1\in X_1.</math>
dla każdego <math>x_1\in X_1.</math>
 
W praktyce, często wykorzystywanym faktem do badania ekstremów warunkowych jest tzw. [[twierdzenie Lusternika (ekstrema warunkowe)|drugie twierdzenie Lusternika]], mówiące o tym, że jeżeli spełnione są założenia twierdzenia Lusternika i funkcja <math>f,</math> określona jak wyżej, jest różniczkowalna w punkcie <math>x_0\in M</math> i ma w tym punkcie ekstremum warunkowe (związane warunkiem <math>M</math>), to istnieje [[Forma liniowa|funkcjonał liniowy]] <math>\Lambda\in Y^\star</math> taki, że
: <math>f^\prime(x_0)=\Lambda\circ G^\prime(x_0)</math>
 
Funkcjonał <math>\Lambda</math> nazywany jest '''funkcjonałem Lagrange’a''' i ma ścisły związek z metodą szukania ekstremów warunkowych, zwaną '''metodą mnożników Lagrange’a''', opisaną dalej.
 
W dalszym ciągu, podtrzymując powyższe założenia i zakładając dodatkowo, że funkcje <math>f</math> i <math>G</math> są dwukrotnie różniczkowalne w sposób ciągły w pewnych otoczeniach punktu <math>x_0,</math> można sformułować warunek wystarczający istnienia ekstremum warunkowego. Mianowicie, jeżeli istnieje funkcjonał liniowy <math>\Lambda\in Y^\star</math> taki, że
: <math>f^\prime(x_0)=\Lambda\circ G^\prime(x_0)</math>
 
oraz
: <math>(f^{\prime\prime}(x_0)-\Lambda\circ G^{\prime\prime}(x_0))(h)</math>
 
jest dodatnio (ujemnie) określona dla <math>h\in X_1=\ker G^\prime(x_0),</math> to funkcja <math>f</math> ma w punkcie <math>x_0</math> minimum (maksimum) warunkowe.
 
Twierdzenie to można udowodnić korzystając z twierdzenia Lusternika i odpowiednio wykorzystując [[wzór Taylora|twierdzenia Taylora]]. Daje się ono łatwo uogólnić na przypadek pochodnych wyższych rzędów – w tym przypadku dodatkowo zakłada się, że odwzorowania <math>f</math> i <math>G</math> są różniczkowalne <math>2n</math> razy w sposób ciągły w pewnym otoczeniu punktu <math>x_0.</math> Wówczas, jeżeli istnieje funkcjonał <math>\Lambda\in Y^\star</math> taki, że
: <math>f^{(k)}(x_0)=\Lambda\circ G^{(k)}(x_0)</math>
 
dla <math>k=1,2,\ldots, 2n-1</math> oraz odwzorowanie
: <math>\left(f^{(2n)}(x_0)-\Lambda\circ G^{(2n)}(x_0)\right)(h)</math>
 
jest dodatnio<ref>Uwaga: w tym wypadku pojęcie dodatniej (ujemnej) określoności zostaje rozszerzone na [[Przekształcenie wieloliniowe|funkcjonały ''n''-liniowe]], tj. powiemy że funkcjonał <math>{n}</math>-liniowy <math>{\varphi\colon X\times\ldots\times X\to \mathbb{R}}</math> jest dodatnio (ujemnie) określony, jeśli istnieje takie <math>{c>0,}</math> że <math>{\varphi(h,\ldots, h)\geqslant c\|h\|^n \; (\leqslant -c\|h\|^n)}</math> dla wszelkich <math>{h\in X.}</math>.</ref> (ujemnie) określona dla <math>h\in X_1,</math> to funkcja <math>f</math> ma w punkcie <math>x_0</math> minimum (maksimum) warunkowe.
 
Szukanie ekstremów warunkowych funkcji <math>f\colon \mathbb{R}^n\to\mathbb{R},</math> będących zarazem punktami regularnymi<ref name="punktreg">Por. [[Punkt regularny#Szczególne przypadki|punkt regularny (szczególne przypadki)]].</ref>, sprowadza się do rozwiązania układu równań operatorowych
: <math>\left\{\begin{array}{l}f^\prime(x)=\Lambda\circ G^\prime(x)\\G(x)=0\end{array}\right.</math>
 
gdzie <math>\Lambda\in (\mathbb{R}^m)^\star.</math> Wiadomo, że każdy taki funkcjonał <math>\Lambda</math> jest reprezentowany przez układ <math>m</math> [[liczby rzeczywiste|liczb rzeczywistych]] <math>\lambda_1,\ldots,\lambda_m</math> a pochodna <math>G^\prime(x)</math> jest [[macierz]]ą wymiaru <math>m\times n</math> [[rząd macierzy|rzędu]] <math>m</math><ref name="punktreg" />. Układ równań operatorowych sprowadza się więc do układu <math>m+n</math> równań skalarnych:
: <math>\left\{\begin{array}{l}\frac{\partial f(x)}{\partial x_j}=\sum_{i=1}^m\lambda_i\frac{\partial G_i(x)}{\partial x_j},\; j=1,\ldots,n\\G_k(x_1,\ldots, x_n)=0,\; k=1,\ldots, m\end{array}\right.</math>
 
gdzie <math>x=(x_1,\ldots,x_n)</math> o <math>n+m</math> zmiennych <math>\lambda_i, x_k, \; i\leqslant m, k\leqslant n.</math> Wszystkie punkty, w których funkcja może przyjmować ekstrema warunkowe, należą do zbioru rozwiązań tego układu równań. Liczby <math>\lambda_i</math> spełniają tylko rolę pomocniczą i nazywane są często [[Mnożniki Lagrange’a|mnożnikami Lagrange’a]]. Po znalezieniu punktów spełniających warunek konieczny dla ekstremum, należy odwołać się do warunku wystarczającego, tj. zbadać dodatnią (ujemną określoność)
: <math>f^{\prime\prime}(x)-\Lambda\circ G^{\prime\prime}(x)</math>
 
dla
: <math>h\in X_1=\ker G^\prime(x_0)</math>
 
co sprowadza się do badania [[forma kwadratowa|formy kwadratowej]]
: <math>\sum_{i,j=1}^n\left(\frac{\partial^2f(x)}{\partial x_i\partial x_j}-\sum_{k=1}^m\lambda_k\frac{\partial^2 G_k(x)}{\partial x_j\partial x_j}\right)h_ih_j</math>
 
gdzie
: <math>h\in X_1, h=(h_1, \ldots, h_n).</math>
 
Warunek <math>h\in X_1</math> jest równoważny równaniu
: <math>G^\prime(x)h=0</math>
 
które w postaci macierzowej przybiera formę
: <math>\sum_{i=1}^n\frac{\partial G_k(x)}{\partial x_i}h_i=0,\; k=1,2,\ldots, m</math>
 
Do badania określoności tej macierzy można stosować kryterium Sylvestera.
 
W praktyce, gdy <math>X=\mathbb{R}^2, Y=\mathbb{R}</math> wprowadzamy funkcję pomocniczą
: <math>F(x,y)=f(x,y)+\lambda G(x,y)</math>
 
i szukamy dla niej warunków koniecznych na istnienie jej ekstremów, jako funkcji dwóch zmiennych<ref>Por. ustęp [[ekstremum#Funkcje określone na podzbiorach płaszczyzny|Funkcje określone na podzbiorach płaszczyzny]].</ref>, tj. rozwiązaniu układu równań <math>F^\prime_x=0, F^\prime_y=0,</math> a następnie wyrugowaniu z tego układu równań czynnika nieoznaczonego <math>\lambda.</math><br />Do otrzymanego warunku dołączamy warunek <math>G(x,y)=0.</math> Równoważnie, wszystkie punkty, które mogą być ekstremami warunkowymi można wyznaczyć z układu równań
: <math>\left\{\begin{array}{l}\frac{D(f,G)}{D(x,y)}=0\\G(x,y)=0\end{array}\right.</math>
 
gdzie <math>\tfrac{D(f,G)}{D(x,y)}</math> oznacza [[Macierz Jacobiego|jakobian]] funkcji <math>f</math> i <math>G.</math>
 
Ilustracją zastosowania metody mnożników Lagrange’a jest problem wyznaczenia ekstremów funkcji:
: <math>f(x,y)=x+y</math>
 
na kole jednostkowym, tj. przy warunku
: <math>x^2+y^2=1</math>
 
Zatem funkcja <math>G</math> jest postaci
: <math>G(x,y)=x^2+y^2-1</math>
 
a więc funkcja <math>F</math> wyraża się wzorem:
: <math>F(x,y)=f(x,y)+\lambda G(x,y)=</math>
 
Oczywiście, suma prawdopodobieństw <math>p_1, \ldots, p_n</math> jest równa jeden, więc warunek na <math>G</math> przyjmuje postać
 
: <math>G(p_1,p_2,\ldots,p_n)=\sum_{k=1}^n p_k-1</math>
 
Stosując metodę mnożników Lagrange’a, dostajemy [[układ równań|układ]] <math>n</math> równań:
 
: <math>\frac{\partial}{\partial p_k}(f(p_1,p_2,\ldots,p_n)+\lambda (G(p_1,p_2,\ldots,p_n)-1))=0,\;\; 1\leqslant k\leqslant n</math>
 
który sprowadza się do układu
: <math>\frac{\partial}{\partial p_k}\left(-\sum_{k=1}^n p_k \log_2 p_k + \lambda (\sum_{k=1}^n p_k - 1) \right) = 0,\;\; 1\leqslant k\leqslant n</math>
 
Różniczkując każde równanie <math>n</math>-krotnie, powyższy układ sprowadza się do poniższego:
 
: <math>-\left(\frac{1}{\ln 2}+\log_2 p_k \right) + \lambda = 0,\;\; 1\leqslant k\leqslant n</math>
 
Z powyższego wynika, że wszystkie prawdopodobieństwa są równe, tj. <math>p_1=\ldots=p_n,</math> a ponieważ ich suma jest równa jeden, wynika stąd, że dla dowolnego <math>1\leqslant k\leqslant n</math>:
: <math>p_k=\frac{1}{n}</math>