Otwórz menu główne

Ekstremum funkcji

pojęcie matematyczne
(Przekierowano z Ekstremum)
Ekstrema lokalne funkcji zaznaczone kolorem niebieskim (właściwe maksimum lokalne) i czerwonym (właściwe minimum lokalne)

Ekstremum funkcji (l. mn. ekstrema; z łac. extrēmus – najdalszy, ostatni) – maksymalna lub minimalna wartość funkcji.

  • Funkcja przyjmuje w punkcie maksimum lokalne (odpowiednio: minimum lokalne), jeśli w pewnym otwartym[1] otoczeniu tego punktu (np. w pewnym przedziale otwartym) funkcja nigdzie nie ma wartości większych (odpowiednio: mniejszych).
  • Jeśli dodatkowo w pewnym otwartym sąsiedztwie punktu funkcja nie ma również wartości równych to jest to maksimum (odpowiednio: minimum) lokalne właściwe.
  • Minima i maksima lokalne są zbiorczo nazywane ekstremami lokalnymi.
  • Największa i najmniejsza wartość funkcji w całej dziedzinie nazywane są odpowiednio maksimum i minimum globalnym, a zbiorczo ekstremami globalnymi.

Obrazowo: Na powierzchni Ziemi maksimum globalne wysokości nad poziomem morza występuje na szczycie Mount Everestu, maksimum lokalnym jest szczyt każdego pagórka. Jeśli szczyt pagórka jest poziomy i płaski (a także niekiedy w innych przypadkach[2]), nie będzie to maksimum lokalne właściwe.

Istnieją funkcje nieposiadające ekstremów lokalnych ani globalnych, np. funkcja

Poszukiwanie ekstremów jest ważne w praktycznych zastosowaniach matematyki, na przykład w technice i statystyce. Wiele zagadnień optymalizacyjnych sprowadza się do poszukiwania ekstremów odpowiednich funkcji, jak na przykład funkcji kosztu, albo miary jakości dla różnych parametrów danego urządzenia.

Teoria ekstremów w naturalny sposób ma silny związek z teorią nierówności: wiele problemów i twierdzeń można formułować równoważnie zarówno w języku ekstremów, jak i nierówności, co rzuca światło na obie te dziedziny.

Funkcje, dla których można rozważać ekstremaEdytuj

 
Funkcja jako przyporządkowanie

W matematyce wartością funkcji nie musi być koniecznie liczba – funkcją jest dowolne przyporządkowanie każdemu elementowi zbioru zwanego dziedziną po jednym elemencie zbioru zwanego przeciwdziedziną. Funkcją jest więc również przyporządkowanie każdemu łysemu aktorowi Teatru Wielkiego koloru włosów jego ulubionej peruki.

Pojęcie ekstremum wymaga, by wartości funkcji dało się ze sobą porównywać – w przeciwdziedzinie funkcji powinien być zatem zdefiniowany jakiś porządek. Zbiór uporządkowany, i to liniowo, tworzą np. liczby rzeczywiste. Nie ma natomiast powszechnie przyjętego uporządkowania kolorów, zwłaszcza porządku liniowego.

W przypadku ekstremum lokalnego konieczne jest ponadto sprecyzowanie pojęcia „lokalności”. Dokonuje się to przez określenie dla każdego argumentu funkcji, które punkty z jej dziedziny są mu „bliskie”. Formalizując to podejście, określamy w każdym punkcie dziedziny funkcji tak zwaną bazę otoczeń punktu. Dla liczby rzeczywistej otoczeniem jest np. przedział otwarty, zawierający tę liczbę. Ogólnie, zbiór z systemem otoczeń, spełniającym pewne naturalne warunki tworzy tzw. przestrzeń topologiczną.

O ekstremach lokalnych można zatem mówić w przypadku dowolnej funkcji, której dziedzina jest przestrzenią topologiczną, a przeciwdziedzina zbiorem częściowo uporządkowanym. Ze względu na zastosowania najczęściej rozważa się szczególny przypadek – funkcje rzeczywiste, czyli funkcje o wartościach w liczbach rzeczywistych, których dziedzina jest podzbiorem skończeniewymiarowej przestrzeni euklidesowej.

DefinicjeEdytuj

Funkcja   o wartościach w zbiorze uporządkowanym określona na przestrzeni topologicznej ma w punkcie   tej przestrzeni:

  • minimum lokalne, jeśli istnieje otoczenie otwarte   punktu   takie, że dla każdego  
 
więc nie występują w okolicy punktu   wartości funkcji mniejsze od   (ani nieporównywalne), choć mogą występować wartości równe,
  • maksimum lokalne, gdy istnieje otoczenie otwarte   punktu   takie, że dla każdego  
 
więc nie występują w okolicy punktu   wartości funkcji większe od   (ani nieporównywalne), choć mogą występować wartości równe,
  • właściwe minimum lokalne, jeśli w pewnym otoczeniu otwartym   punktu   funkcja przyjmuje wszędzie, z wyjątkiem tego punktu, wartości większe od   czyli nie ma wartości równych dla   formalnie:
  dla każdego  
  • właściwe maksimum lokalne, jeśli w pewnym otoczeniu otwartym   punktu   funkcja przyjmuje wszędzie, z wyjątkiem tego punktu, wartości mniejsze od   formalnie:
  dla każdego  

Funkcja   o wartościach w zbiorze uporządkowanym[3] ma w punkcie   swojej dziedziny:

  • minimum globalne, jeśli dla każdego   należącego do jej dziedziny:
 
  • maksimum globalne, jeśli dla każdego   należącego do jej dziedziny:
 
  • właściwe minimum globalne, jeśli dla każdego   należącego do jej dziedziny:
 
czyli funkcja przyjmuje wszędzie z wyjątkiem punktu   wartości większe od  
  • właściwe maksimum globalne, jeśli dla każdego   należącego do jej dziedziny:
 
czyli funkcja przyjmuje wszędzie z wyjątkiem punktu   wartości mniejsze od  

Nie każda funkcja posiada ekstrema. Jeśli funkcja nie jest ograniczona (np.  ), to nie ma maksimum ani minimum globalnego – jeżeli nie jest ograniczona od góry, to nie ma maksimum globalnego; a jeżeli od dołu, to nie ma minimum globalnego.

Można też mówić o maksimach i minimach w podzbiorze dziedziny – są to wówczas największe lub najmniejsze wartości funkcji dla argumentów z tego podzbioru.

Funkcje rzeczywiste jednej zmiennejEdytuj

Proste przykłady ekstremówEdytuj

Przykład – właściwe minimum lokalne w każdym punkcie dziedzinyEdytuj

 
Fragment wykresu funkcji   mającej właściwe minimum w każdym punkcie swojej dziedziny. Kropki – punkty   odpowiadają nieskracalnym ułamkom  

Niech funkcja   przyporządkowuje każdej liczbie wymiernej wartość mianownika wyrażającego ją ułamka skróconego. Formalnie:

 

gdzie NWD oznacza największy wspólny dzielnik.

Dla dowolnego wymiernego   istnieje otoczenie otwarte, w którym wszystkie inne liczby wymierne mają większy mianownik, a więc większą wartość funkcji  [4]. A zatem funkcja ta ma dla każdej liczby wymiernej (czyli dla każdego punktu swojej dziedziny) właściwe minimum lokalne.

Warunek wystarczający ekstremum globalnego (twierdzenie Weierstrassa)Edytuj

Z twierdzenia Weierstrassa wiadomo, że funkcja ciągła o wartościach rzeczywistych, określona na zbiorze zwartym (a więc np. na przedziale domkniętym), osiąga ekstrema globalne. Twierdzenie to jest prawdziwe w pełnej ogólności – a więc nie tylko dla funkcji liczbowych, a dla dowolnych funkcji ciągłych, określonych na zwartych podzbiorach dowolnych przestrzeni topologicznych.

Funkcje różniczkowalneEdytuj

W dalszej części sekcji rozważane będą funkcje   ciągłe oraz różniczkowalne w przedziale   Geometrycznie oznacza to, że ich wykres jest „nieprzerwany” i „gładki”, czyli ma w każdym punkcie styczną.

Warunek konieczny istnienia ekstremum lokalnego (twierdzenie Fermata)Edytuj

 
Funkcja   nie ma dla   ekstremum lokalnego, mimo że jej pochodna w tym punkcie jest równa zero

Warunkiem koniecznym istnienia ekstremów lokalnych różniczkowawalnych funkcji   w pewnym punkcie   jest

 

Geometrycznie oznacza to, że styczna do wykresu funkcji jest w tym punkcie prostą poziomą. Jest to tzw. twierdzenie Fermata. Udowodnijmy je:

jeśli   ma w punkcie   ekstremum lokalne, to istnieje takie   że dla każdej liczby rzeczywistej   spełniającej   zachodzi:

 

a więc:

 

Po przejściu do granicy, dla   otrzymujemy:

 

Zatem  

Warunek Fermata nie jest jednak wystarczający. Np. funkcja   nie ma ekstremum, chociaż jej pochodna   zeruje się dla   Ekstremum może natomiast istnieć w punktach, w których nie istnieje (obustronna) pochodna skończona – funkcja   ma na przykład, minimum w punkcie   podczas gdy jej pochodna lewostronna w tym punkcie równa się   a prawostronna   Podobnie funkcja wartość bezwzględna ma w punkcie   minimum globalne, chociaż w tym punkcie nie jest różniczkowalna.

Warunek konieczny i wystarczający istnienia ekstremum lokalnegoEdytuj

Funkcja ciągła   różniczkowalna w przedziale   i mająca skończoną liczbę punktów stacjonarnych (tj. takich, w których zeruje się jej pierwsza pochodna)[5] ma w punkcie  

  • minimum lokalne wtedy i tylko wtedy, gdy istnieje takie   że:
    •  
    •   dla  
    •   dla  
  • maksimum lokalne wtedy i tylko wtedy, gdy istnieje takie   że
    •  
    •   dla  
    •   dla  

Inne warunki wystarczające istnienia ekstremówEdytuj

Jeśli o funkcji   określonej jak wyżej, założy się dodatkowo, że jest dwukrotnie różniczkowalna w przedziale   oraz jej druga pochodna jest ciągła, to jeżeli   i   to funkcja   ma w punkcie   ekstremum, przy czym, gdy   to jest to maksimum lokalne, a gdy   to minimum lokalne[6].

Powyższe kryterium nie rozstrzyga przypadku, gdy druga pochodna jest równa zero.

Kryterium istnienia ekstremów funkcji n-krotnie różniczkowalnychEdytuj

Jeżeli założy się dodatkowo o funkcji   że jest  -krotnie razy różniczkowalna i  -ta pochodna jest ciągła w   to zachodzi następujące twierdzenie:

jeżeli

 

tj. wszystkie pochodne do  -ej zerują się w punkcie   a  -ta pochodna jest różna od zera, to

  • gdy   jest liczbą parzystą, to   ma ekstremum w punkcie   przy czym jest to maksimum, gdy   lub minimum, gdy  
  • gdy   jest liczbą nieparzystą, ekstremum nie istnieje.

Z założenia zerowania się pochodnych do   można wyprowadzić korzystając ze wzoru Taylora:

 

dla pewnego  

Jeśli   jest parzyste, rozumowanie przebiega jak poprzednio. Gdy   jest nieparzyste, prawa strona równości zmienia znak, gdy   zmienia znak, a funkcja   zachowuje w pewnym otoczeniu punktu   ten sam znak co   Czyli   ma dla   inny znak niż dla   więc nie istnieje ekstremum w punkcie  

Proste zagadnienia optymalizacyjneEdytuj

 
Siatka prostopadłościennego pudełka wykonana z kwadratu o boku długości  

Zagadnienie wyznaczania ekstremów funkcji występuje często w fizyce i technice. Oto przykład:

Pudełko o największej objętościEdytuj

Problem
Z kwadratowego arkusza blachy o boku   wycinane są przy wierzchołkach przystające kwadraty i po zagięciu brzegów tworzone jest prostopadłościenne pudełko. Jak otrzymać pudełko o największej objętości?
Rozwiązanie 1
Jeśli przez   oznaczyć długość boku wyciętego kwadratu, to objętość   pudełka będzie równa
 
przy czym
 
Zadanie sprowadza się do znalezienia ekstremum funkcji   w przedziale   przy czym wartości krańcowe reprezentują pudełko odpowiednio bez ścianek oraz bez podstawki, a więc o zerowej (minimalnej) objętości.
Pochodna
 
zeruje się na tym przedziale w punktach   oraz   (w tym przypadku objętość jest zerowa). Ponieważ funkcja objętości jest dodatnia wewnątrz przedziału, 0 na jego końcach i ma we wnętrzu nie więcej niż jedno ekstremum lokalne, to ma ona dokładnie jedno maksimum, które jest zarazem lokalne i globalne (twierdzenie Rolle’a); osiągane jest ono w   Dlatego największa objętość pudełka wynosi
 
Rozwiązanie 2
Wielkość   gdzie
  oraz  
są nieujemne, przyjmuje wartość maksymalną dla tego samego   co   Ponieważ
 
jest stałe i dodatnie, więc stała i dodatnia jest też średnia arytmetyczna nieujemnych liczb  
  jest natomiast sześcianem ich średniej geometrycznej. Wiadomo, że średnia geometryczna liczb nieujemnych jest zawsze mniejsza lub równa od arytmetycznej, przy czym równość między tymi średnimi zajdzie tylko, gdy   (zob. nierówności między średnimi potęgowymi), czyli gdy
 
czyli dla
 
Zatem dla tej właśnie wartości     przyjmuje wartość maksymalną:
 

Koszt eksploatacji statkuEdytuj

Problem
Wiadomo, że koszt eksploatacji statku w ciągu godziny pływania wyraża się wzorem empirycznym   gdzie   oznacza prędkość statku w węzłach (1 węzeł = 1 Mm/h ≈ 1,85 km/h), natomiast   i   są stałymi, które powinny być obliczone dla każdego statku z osobna (część stała kosztu   pochodzi od amortyzacji i kosztów utrzymania załogi, a część   od kosztów paliwa). Przy jakiej prędkości statek przebędzie dowolną odległość z najmniejszymi kosztami?
Rozwiązanie
Przebycie 1 mili morskiej trwa 1/v godziny, więc kosztuje:
 
Przyrównując pochodną   do zera, mamy:
  skąd  
Ponieważ druga pochodna
 
więc koszty rzeczywiście osiągną najmniejszą wartość dla znalezionej wartości  

Funkcje określone na podzbiorach przestrzeni unormowanychEdytuj

Pewne wyniki związane z istnieniem ekstremów, otrzymane dla funkcji argumentów rzeczywistych, przenoszą się na funkcje określone na podzbiorach przestrzeni unormowanych.

 
Paraboloida hiperboliczna – w pobliżu początku układu współrzędnych ma ona kształt podobny do siodła (zob. punkt siodłowy)

W dalszej części tego paragrafu przez   rozumiana jest dowolna przestrzeń unormowana, zaś przez   pewien jej otwarty[7] podzbiór. Funkcja   musi być różniczkowalna (w sensie Frécheta) w zbiorze   Przez zapis   lub   rozumie się różniczkę funkcji   która jest odwzorowaniem liniowym i ciągłym przestrzeni   o wartościach w   Pochodna  -tego rzędu funkcji ( -krotnie różniczkowalnej) jest odwzorowaniem  -liniowym przestrzeni   o wartościach rzeczywistych i oznaczana jest przez   lub  

Podobnie jak dla funkcji rzeczywistych, warunkiem koniecznym istnienia ekstremum w punkcie   jest, aby wartość funkcji będącej różniczką w   wynosiła zero dla wszystkich punktów w pewnym otoczeniu     Punkt, w którym różniczka się zeruje (jest funkcją stale równą zero w pewnym otoczeniu  ), nazywany jest punktem stacjonarnym.

Tak jak w przypadku funkcji jednej zmiennej, w punkcie stacjonarnym wcale nie musi być ekstremum. Na przykład dla funkcji   danej wzorem   której wykresem jest paraboloida hiperboliczna, pochodne cząstkowe   są jednocześnie równe zeru[8] tylko w punkcie   w którym   Jednocześnie widać (por. rysunek obok), że w dowolnym otoczeniu zera funkcja przybiera zarówno wartości dodanie, jak i ujemne, a więc nie może być w nim ekstremum.

Definicje pomocniczeEdytuj

Na potrzeby dalszych twierdzeń, konieczne będzie wprowadzenie kilku definicji:

Funkcjonał dwuliniowy   jest nieujemny, niedodatni, dodatni, ujemny jeśli odpowiednio   dla wszelkich  

Funkcjonał dwuliniowy   jest

  • dodatnio określony, jeśli
 
  • ujemnie określony, jeśli
 

W szczególności, każda macierz kwadratowa może być interpretowana jako macierz funkcjonału dwuliniowego przestrzeni   (por. macierz dodatnio określona). Prawdziwe jest twierdzenie, które mówi, że każdy dodatni (lub ujemny) funkcjonał dwuliniowy tej przestrzeni jest dodatnio określony (ujemnie określony). Do badania dodatniej (ujemnej) określoności macierzy służy kryterium Sylvestera.

Ekstrema a druga pochodnaEdytuj

Jeżeli funkcja   jest dwukrotnie różniczkowalna w pewnym otoczeniu   punktu   przy czym   a pochodna   jest ciągła w   to

  • jeżeli   ma w   minimum lokalne, to   jest nieujemna,
  • jeżeli   ma w   maksimum lokalne, to   jest niedodatnia.

Warunek konieczny i wystarczający istnienia ekstremumEdytuj

Niech, jak poprzednio, funkcja   będzie dwukrotnie różniczkowalna w pewnym otoczeniu   punktu   przy czym   a pochodna   jest ciągła w  

  • Jeżeli   jest dodatnio określona, to   ma minimum lokalne właściwe w punkcie  
  • Jeżeli   jest ujemnie określona, to   ma maksimum lokalne właściwe w punkcie  

Funkcje określone na podzbiorach płaszczyznyEdytuj

Ważnym przypadkiem są funkcje określone na podzbiorach   Przypadek ten zasługuje na wyróżnienie ponieważ funkcje tego typu szczególnie często pojawiają się w zastosowaniach. Korzystając z własności pochodnych cząstkowych takich funkcji można podać następujący algorytm badania istnienia ekstremów funkcji   gdzie   jest otwartym podzbiorem płaszczyzny. O funkcji   wiadomo, że jest dwukrotnie różniczkowalna i jej druga pochodna jest ciągła.

  1. Wyznaczamy wszystkie punkty   takie, że pochodne cząstkowe

      (rozwiązując ten układ równań)[9].
  2. Dla każdego punktu z osobna badamy znak wyznacznika Hessego

     

    Na mocy lematu Schwarza   więc

     
  3. Jeżeli w danym punkcie   wyznacznik   to w tym punkcie nie ma ekstremum, jeśli   to w pewnych przypadkach może istnieć ekstremum, a pewnych nie[10]. I ostatecznie, jeżeli   to istnieje ekstremum lokalne w tym punkcie, jeśli:
  •   co dla   jest równoważne   to jest to minimum lokalne,
  •   co dla   jest równoważne   to jest to maksimum lokalne.

PrzykładEdytuj

 
Wykres funkcji   z zaznaczonymi ekstremami lokalnymi i punktami siodłowymi

Znaleźć ekstrema funkcji

 

Obliczamy pierwsze pochodne cząstkowe funkcji   i przyrównujemy do zera:

 

Układ równań ma dokładnie 4 rozwiązania, którymi są punkty

 
  •   i   – zatem w tych punktach nie ma ekstremów (na wykresie zaznaczono je na pomarańczowo, są to tzw. punkty siodłowe funkcji  ),
  •   – w tym punkcie jest minimum lokalne (zaznaczono na czerwono),
  •   – w tym punkcie jest maksimum lokalne (zaznaczono na zielono).

Funkcje uwikłaneEdytuj

W tej sekcji rozważane będą ekstrema funkcji   dla której nie znamy jednak bezpośredniej zależności   od   mając jedynie równanie postaci  

Podobnie jak w poprzednim przypadku, o funkcji   zakładamy, że jest dwukrotnie różniczkowalna w pewnym otwartym podzbiorze   oraz   jest zbiorem punktów   obszaru, w których

 

Na mocy twierdzenia o funkcji uwikłanej, wzór

 

gdzie   a w konsekwencji także

 

pozwala wyznaczyć ekstrema funkcji   uwikłanej w równaniu  [11]. W tym celu należy wyznaczyć punkty, w których

 

Dwa ostatnie warunki równoważne są poniższym, tj.

 

PrzykładEdytuj

Znaleźć ekstrema funkcji   określonej równaniem

 

Ponieważ

 

tylko gdy   więc wstawiając to do równania

 

otrzymujemy jako jedyne rozwiązania punkty  

Ponieważ

 

oraz

 

zatem w punkcie   druga pochodna

 

czyli w tym punkcie jest minimum lokalne, natomiast w punkcie  

 

czyli w tym punkcie jest maksimum lokalne funkcji  

Rachunek wariacyjnyEdytuj

Osobny artykuł: Rachunek wariacyjny.
 
Na czerwono zaznaczono fragment cykloidy – brachistochronę. Punkt materialny stacza się od punktu   do punktu   w najkrótszym czasie właśnie po tej krzywej.

Ważnymi obiektami matematycznymi są te funkcjonały, które danej funkcji przypisują liczbę rzeczywistą, np. długość łuku jej wykresu. Przestrzeń funkcyjna jest przestrzenią unormowaną, opisywaną w jednej z wcześniejszych sekcji, jednak badanie ekstremów tych funkcjonałów jest szczególnie istotne ze względu na zastosowania w fizyce i technice – przykładowo jeśli funkcja będąca argumentem funkcjonału opisuje kształt śmigła samolotu, a wartości funkcjonału opisują wydajność śmigła, to znalezienie globalnego maksimum jest równoważne wyliczeniu jaki kształt śmigła zapewni największą wydajność.

Badania funkcjonałów zapoczątkował Leonard Euler. Klasycznym problemem, prowadzącym do znalezienia ekstremów pewnego funkcjonału jest zagadnienie brachistochrony, postawione w 1696 przez Jana Bernoulliego w periodyku Acta Eroditorium. Sprowadza się ono do znalezienia takiej krzywej łączącej dwa punkty   i   aby ciało staczające się po niej od punktu   do   pokonało tę drogę w najkrótszym czasie[12].

Ekstrema mocne i słabeEdytuj

Szukając lokalnych ekstremów funkcjonałów konieczne jest zdefiniowanie przestrzeni topologicznej. Najprościej zrobić to konstruując bazę coraz węższych otoczeń wokół każdego punktu dziedziny. Rozsądnie jest przyjąć, że ciąg funkcji należących do coraz węższych otoczeń powinien zbiegać do funkcji   odpowiadającej otaczanemu punktowi, jednak nie jest oczywiste, czy także pochodne tych funkcji muszą zbiegać do pochodnej   Jeśli przyjmiemy, że tak, to mówimy o tzw. ekstremum mocnym, jeśli natomiast dopuszczamy dowolne wartości pochodnej, o ekstremum słabym. Każde ekstremum mocne jest szczególnym przypadkiem słabego, odwrotnie – niekoniecznie.

Przykład – równania Eulera-Lagrange’aEdytuj

Rachunek wariacyjny bada ekstrema funkcjonałów, często zadanych w postaci całek. W mechanice klasycznej ważne są równania, pozwalające na znajdowanie torów cząstek   jeśli znana jest funkcja   (lagranżjan), opisująca ten układ. Równania te zostały wprowadzone w 1750 roku przez Leonharda Eulera oraz Josepha Louisa Lagrange’a i zwane są dziś nazwiskami ich odkrywców. Równania Eulera-Lagrange’a mają ścisły związek z metodami rachunku wariacyjnego.

Formalnie, o funkcji   zakłada się, że jest określona na   oraz jest dwukrotnie różniczkowalna w sposób ciągły. Dalej, o funkcji

 

zakłada się, że jest funkcją o wartościach wektorowych, dwukrotnie różniczkowalną w sposób ciągły. W celu wyznaczenia toru cząstki, określa się funkcjonał

 

Ekstremów tego funkcjonału szuka się w klasie funkcji dwukrotnie różniczkowalnych, przyjmujących na końcach przedziału   wartości

 

Jest to problem z tzw. ustalonym brzegiem. Okazuje się, że funkcje   dla których funkcjonał   przyjmuje ekstremum, spełniają układ równań różniczkowych cząstkowych, zwanych równaniami Eulera-Lagrange’a, postaci:

 

gdzie:

 

Ekstrema warunkoweEdytuj

W matematyce i fizyce zachodzi często potrzeba badania ekstremów funkcji przy pewnych dodatkowych warunkach. Chcąc np. znaleźć odległość punktu   od hiperpowierzchni zadanej równaniem   należy zbadać minima funkcji

 

przy warunku dodatkowym

 

W paragrafie tym podamy ogólną definicję ekstremum warunkowego i ogólne wyniki tej teorii, badanie ekstremów warunkowych funkcji tylko dwóch zmiennych zostanie omówione w następnym ustępie.

Jeśli   jest przestrzenią topologiczną,   przestrzenią liniową,   oraz   to mówimy że funkcja   ma w punkcie   minimum (maksimum) lokalne przy warunku   (albo związane zbiorem  ), jeśli istnieje otoczenie   punktu   takie, że   względnie   dla  

Warunek konieczny istnienia ekstremum warunkowegoEdytuj

W dalszym ciągu będziemy zakładali spełnienie założeń twierdzenia Lusternika, tj.

  1.   i  przestrzeniami Banacha,
  2.   jest różniczkowalne w sposób ciągły w pewnym otoczeniu punktu  
  3.   jest punktem regularnym zbioru   tj.   jest suriekcją   na  
  4.   to znaczy   jest jądrem  
  5.   (rozkład przestrzeni   na topologiczną sumę prostą).

Niech   będzie funkcją określoną na otwartym podzbiorze   przestrzeni Banacha   o wartościach w   oraz niech   będzie punktem regularnym zbioru   Jeżeli funkcja   jest różniczkowalna w punkcie   i ma w tym punkcie ekstremum warunkowe, to

    dla każdego  

W praktyce, często wykorzystywanym faktem do badania ekstremów warunkowych jest tzw. drugie twierdzenie Lusternika, mówiące o tym, że jeżeli spełnione są założenia twierdzenia Lusternika i funkcja   określona jak wyżej, jest różniczkowalna w punkcie   i ma w tym punkcie ekstremum warunkowe (związane warunkiem  ), to istnieje funkcjonał liniowy   taki, że

 

Funkcjonał   nazywany jest funkcjonałem Lagrange’a i ma ścisły związek z metodą szukania ekstremów warunkowych, zwaną metodą mnożników Lagrange’a, opisaną dalej.

Warunki wystarczające istnienia ekstremum warunkowegoEdytuj

Osobny artykuł: mnożniki Lagrange’a.

W dalszym ciągu, podtrzymując powyższe założenia i zakładając dodatkowo, że funkcje   i   są dwukrotnie różniczkowalne w sposób ciągły w pewnych otoczeniach punktu   można sformułować warunek wystarczający istnienia ekstremum warunkowego. Mianowicie, jeżeli istnieje funkcjonał liniowy   taki, że

 

oraz

 

jest dodatnio (ujemnie) określona dla   to funkcja   ma w punkcie   minimum (maksimum) warunkowe.

Twierdzenie to można udowodnić korzystając z twierdzenia Lusternika i odpowiednio wykorzystując twierdzenia Taylora. Daje się ono łatwo uogólnić na przypadek pochodnych wyższych rzędów – w tym przypadku dodatkowo zakłada się, że odwzorowania   i   są różniczkowalne   razy w sposób ciągły w pewnym otoczeniu punktu   Wówczas, jeżeli istnieje funkcjonał   taki, że

 

dla   oraz odwzorowanie

 

jest dodatnio[13] (ujemnie) określona dla   to funkcja   ma w punkcie   minimum (maksimum) warunkowe.

Ekstrema warunkowe w  Edytuj

Badanie ekstremów warunkowych przekształceń dowolnych przestrzeni Banacha jest rzeczą trudną. Już samo spełnienie założeń twierdzenia Lusternika może okazać się niemożliwe, gdyż nie każdą przestrzeń unormowaną da się rozłożyć na topologiczną sumę prostą jej podprzestrzeni[14]. Duża część zagadnień praktycznych sprowadza się do badania ekstremów warunkowych w przypadku gdy   a odwzorowanie   reprezentowane jest przez układ   funkcji o   zmiennych, tj.  

Szukanie ekstremów warunkowych funkcji   będących zarazem punktami regularnymi[15], sprowadza się do rozwiązania układu równań operatorowych

 

gdzie   Wiadomo, że każdy taki funkcjonał   jest reprezentowany przez układ   liczb rzeczywistych   a pochodna   jest macierzą wymiaru   rzędu  [15]. Układ równań operatorowych sprowadza się więc do układu   równań skalarnych:

 

gdzie   o   zmiennych   Wszystkie punkty, w których funkcja może przyjmować ekstrema warunkowe, należą do zbioru rozwiązań tego układu równań. Liczby   spełniają tylko rolę pomocniczą i nazywane są często mnożnikami Lagrange’a. Po znalezieniu punktów spełniających warunek konieczny dla ekstremum, należy odwołać się do warunku wystarczającego, tj. zbadać dodatnią (ujemną określoność)

 

dla

 

co sprowadza się do badania formy kwadratowej

 

gdzie:

 

Warunek   jest równoważny równaniu

 

które w postaci macierzowej przybiera formę

 

Do badania określoności tej macierzy można stosować kryterium Sylvestera.

W praktyce, gdy   wprowadzamy funkcję pomocniczą

 

i szukamy dla niej warunków koniecznych na istnienie jej ekstremów, jako funkcji dwóch zmiennych[16], tj. rozwiązaniu układu równań   a następnie wyrugowaniu z tego układu równań czynnika nieoznaczonego  
Do otrzymanego warunku dołączamy warunek   Równoważnie, wszystkie punkty, które mogą być ekstremami warunkowymi można wyznaczyć z układu równań

 

gdzie   oznacza jakobian funkcji   i  

Przykład – ekstrema funkcji na okręguEdytuj

 
Wykresem funkcji   jest płaszczyzna. W przestrzeni trójwymiarowej, równanie   opisuje walec (u którego podstawy, na płaszczyźnie   leży okrąg jednostkowy). Szukanie ekstremów warunkowych sprowadza się w tym wypadku do badania punktów ekstremalnych części wspólnej walca i płaszczyzny.

Ilustracją zastosowania metody mnożników Lagrange’a jest problem wyznaczenia ekstremów funkcji:

 

na kole jednostkowym, tj. przy warunku

 

Zatem funkcja   jest postaci

 

a więc funkcja   wyraża się wzorem:

 

Wszystkie punkty, które mogą być ekstremami warunkowymi są rozwiązaniami układu równań

 

Podstawiając   do pierwszego równania uzyskujemy:   Stosując podobne podstawienie do trzeciego równania, dostaje się warunek   skąd wynika   Funkcja   może zatem przyjmować ekstrema tylko w punktach   Ponieważ okrąg jest zbiorem domkniętym i ograniczonym (czyli zwartym[17]), więc na mocy twierdzenia Weierstrassa, funkcja   osiąga w tych punktach ekstrema (warunkowe):

  • minimum warunkowe:  
  • maksimum warunkowe:  

Warto zauważyć, że funkcja   określona na całej płaszczyźnie (bez dodatkowego warunku) nie ma ekstremów.

Przykład – problem maksymalnej entropiiEdytuj

Problem polega na znalezieniu dyskretnego rozkładu zmiennej losowej maksymalizującego entropię. Funkcja entropii prawdopodobieństw   wyraża się wzorem

 

Oczywiście, suma prawdopodobieństw   jest równa jeden, więc warunek na   przyjmuje postać

 

Stosując metodę mnożników Lagrange’a, dostajemy układ   równań:

 

który sprowadza się do układu

 

Różniczkując każde równanie  -krotnie, powyższy układ sprowadza się do poniższego:

 

Z powyższego wynika, że wszystkie prawdopodobieństwa są równe, tj.   a ponieważ ich suma jest równa jeden, wynika stąd, że dla dowolnego  

 

Gradacyjna analiza odpowiedniościEdytuj

Ciekawym praktycznym zastosowaniem ekstremum lokalnego w przestrzeni par permutacji jest algorytm statystyczny, zwany gradacyjną analizą odpowiedniości (Grade Correspondence Analysis, GCA).

Algorytm ma na celu przekształcenie badanych nominalnych cech statystycznych w cechy porządkowe tak, aby korelacja rangowa pomiędzy nimi w zbiorze uczącym była maksymalna[18].

Algorytm GCA był stosowany m.in. do tabeli, w której wiersze odpowiadają okręgom wyborczym, kolumny partiom politycznym, a liczby w komórkach macierzy liczbie głosów oddanych na poszczególne partie w poszczególnych okręgach[19] GCA rozmieściło zarówno okręgi wyborcze, jak i partie na skali, która po zbadaniu okazała się odpowiadać continuum lewica-prawica.

Ściśle: danymi wejściowymi jest tzw. macierz kontyngencji, której wiersze odpowiadają możliwym wartościom (tzw. etykietom) pewnej nominalnej cechy statystycznej (zwanej zmienną wierszową), a kolumny możliwym wartościom innej cechy nominalnej (zwanej zmienną kolumnową). Wartości elementów macierzy reprezentują liczebność obserwacji w próbie, dla których rozważane dwie cechy mają wartości przypisane do danego wiersza i kolumny[20].

Celem algorytmu jest znalezienie takiej permutacji wierszy i kolumn macierzy (czyli etykiet zmiennych wierszowej i kolumnowej), aby współczynnik rho Spearmana dla powstałego rozkładu dwuwymiarowego był największy. Odpowiada to znalezieniu takiego uszeregowania etykiet zmiennych nominalnych, aby powstałe w ten sposób zmienne porządkowe wykazywały możliwie dużą zależność statystyczną w sensie korelacji rangowej.

GCA jest algorytmem iteracyjnym, który wielokrotnie startując od losowych permutacji wierszy i kolumn macierzy, dochodzi do różnych lokalnych maksimów rho Spearmana. Maksima są lokalne w tym sensie, że aby uzyskać większą wartość trzeba zmienić jednocześnie kolejność wierszy i kolumn macierzy. Zmiana wyłącznie kolejności wierszy lub wyłącznie kolejności kolumn nie da wyższej wartości rho.

Zobacz teżEdytuj

PrzypisyEdytuj

  1. Czasem uogólnia się to na dowolne niepuste zbiory otwarte; Zbiór musi być otwarty, żeby wykluczyć patologiczny przypadek, gdy wybierzemy punkt   na brzegu tego zbioru. Wówczas np. funkcja   mogłaby mieć minimum i maksimum właściwe w każdym swoim punkcie.
  2. Ekstremum może nie być właściwe, nawet jeśli funkcja nie posiada odcinka stałego. Wystarczy, że w okolicach rozważanego ekstremum występuje nieskończona liczba ekstremów o tej samej wartości funkcji, tak że w każdym otoczeniu jest przynajmniej jedno. Zobacz sekcja #Proste przykłady ekstremów.
  3. Dla ekstremów globalnych nie jest potrzebna definicja systemu otoczeń.
  4. Stwierdzenie to wynika z następującej obserwacji: jeżeli   jest ułamkiem nieskracalnym, to każdy ułamek   różniący się od   o mniej niż   ma mianownik większy od q. Nierówność
     
    prowadzi bowiem do
     
    a wobec   jest  
  5. Założenie o skończonej liczbie punktów stacjonarnych można zastąpić słabszym żądaniem, by każdy punkt stacjonarny był izolowany. Zobacz przykład funkcji   której wykres pokazano w sekcji Proste przykłady ekstremów.
  6. Dowód: Ze wzoru Taylora dla   wynika:
     
    gdzie:
     
    więc z:
     
    wynika:
     
    Dla   prawa strona ma ten sam znak, co   Gdy   to z ciągłości   wynika   w pewnym otoczeniu punktu   więc w tym otoczeniu
      dla  
    zatem istnieje maksimum w punkcie   Analogicznie, istnieje minimum gdy  
  7. Por. Różniczkowalność a otwartość zbioru.
  8. Jeśli którakolwiek pochodna kierunkowa, w tym pochodna cząstkowa, jest różna od zera, to również różniczka jest niezerowa (o ile istnieje). W tym przykładzie obie pochodne cząstkowe są ciągłe, istnieje również pochodna Frécheta i  
  9. W przypadku funkcji różniczkowalnej   równości te mają prosty sens geometryczny: płaszczyzna styczna do powierzchni   w jej punkcie odpowiadającym ekstremum powinna być równoległa do płaszczyzny  
  10. Np. funkcja   ma w punkcie   minimum, natomiast funkcja   nie ma w punkcie   ekstremum lokalnego.
  11. Wzór ten można otrzymać różniczkując tożsamość   dla  
  12. Problem brachistochrony został rozwiązany przez Newtona, Leibniza, de l’Hospitala (ucznia Jana Bernoulliego) oraz Jakuba Bernoulliego.
  13. Uwaga: w tym wypadku pojęcie dodatniej (ujemnej) określoności zostaje rozszerzone na funkcjonały n-liniowe, tj. powiemy że funkcjonał  -liniowy   jest dodatnio (ujemnie) określony, jeśli istnieje takie   że   dla wszelkich  
  14. Da się to zrobić w przypadku przestrzeni Hilbertatwierdzenie o rozkładzie ortogonalnym mówi, że dla każdej domkniętej podprzestrzeni przestrzeni Hilberta istnieje dopełnienie ortogonalne. W szczególności, rozkład taki jest możliwy jeżeli   jest przestrzenią skończenie wymiarową.
  15. a b Por. punkt regularny (szczególne przypadki).
  16. Por. ustęp Funkcje określone na podzbiorach płaszczyzny.
  17. Na mocy twierdzenia Heinego-Borela.
  18. Podobny problem ze zwykłą korelacją Pearsona rozwiązuje klasyczna analiza odpowiedniości.
  19. W wyborach do Sejmu w 1997 roku.
  20. Choć GCA można też stosować do innych zbiorów danych, np. takich gdzie każda kolumna reprezentuje inną zmienną.

BibliografiaEdytuj

  • Grigorij Michajłowicz Fichtenholz: Rachunek różniczkowy i całkowy, t. 1. Warszawa: PWN, 1966.
  • Witold Kołodziej: Analiza matematyczna. Warszawa: PWN, 1979.
  • Teresa Kowalczyk, Elżbieta Pleszczyńska, Fred (red.) Ruland: Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Berlin Heidelberg New York: seria: Studies in Fuzziness and Soft Computing, vol. 151, Springer Verlag, 2004, s. 477.
  • Franciszek Leja: Rachunek różniczkowy i całkowy. Warszawa: PWN, 1976.
  • Krzysztof Maurin: Analiza – Część I – Elementy. Warszawa: PWN, 1976. ISBN 978-83-01-09939-8.