Zbiór danych: Różnice pomiędzy wersjami

[wersja przejrzana][wersja przejrzana]
Usunięta treść Dodana treść
→‎Klasyczne zbiory danych: , linki zewnętrzne
m poprawa przek., drobne merytoryczne, drobne redakcyjne
Linia 1:
'''Zbiór danych''' – kolekcja [[dane|danych]] [[statystyka|statystycznych]] zwykle ujętych w formie stabelaryzowanej. Najczęściej kolumny odpowiadają obserwowanym [[cecha statystyczna|cechom statystycznym]], a każdy wiersz opisuje jedną [[obserwacja statystyczna|obserwację]] z [[próba statystyczna|próby]]. Wartości komórek macierzy natomiast opisują realizacje danych [[zmienna losowa|zmiennych]] w kolejnych obserwacjach. Szczególnym przypadkiem jest też [[tabele krzyżowe|macierz kontyngencji]] ([[tablica wielodzielcza]]), w której wiersze odpowiadają etykietom jednej [[zmiennaskala nominalna|zmiennej nominalnej]], kolumny etykietom drugiej zmiennej, a wartości macierzy odpowiadają liczności w próbie obserwacji o danych wartościach tych dwóch zmiennych.
'''Zbiór danych''' – kolekcja [[dane|danych]] [[statystyka|statystycznych]] zwykle ujętych w formie stabelaryzowanej.
 
Kolumny reprezentujące zmienne na skali [[skala interwałowa|interwałowej]] lub [[skala przedziałowainterwałowa|przedziałowej]] zawierają [[liczby rzeczywiste]]., natomiast Kolumnykolumny opisujące zmienne na skali [[skala nominalna|nominalnej]] i [[skala porządkowa|porządkowej]] mogą również byćzawierać liczbamiliczby, ale także np. etykietamietykiety tekstowe. Ponadto w dowolnej komórce może także wystąpić przypadek [[brakujące dane|braku danych]], który musi być w jakiś sposób możliwy do zidentyfikowania – niekiedy rezerwuje się dla niego specjalną wartość liczbową lub tekstowymiznakową.
Najczęściej kolumny odpowiadają obserwowanym [[cecha statystyczna|cechom statystycznym]] a każdy wiersz opisuje jedną [[obserwacja statystyczna|obserwację]] z [[próba statystyczna|próby]]. Wartości komórek macierzy opisują realizacje danych [[zmienna losowa|zmiennych]] w kolejnych obserwacjach.
 
Historycznie, termin powstał w świecie komputerów [[IBM]] [[mainframe]], gdzie miał dobrze zdefiniowane znaczenie, bliskie współczesnym [[plikPlik danych|plikom]]om. Dzisiaj w świecie komputerów najbliższymnajbardziej zbliżonym pojęciem do zbioru danych jest [[tabela (bazy danych)|tabela]] w [[baza danych|bazie danych]].
Szczególnym przypadkiem jest też [[macierz kontyngencji]] ([[tablica wielodzielcza]]) w której wiersze odpowiadają etykietom jednej [[zmienna nominalna|zmiennej nominalnej]], kolumny etykietom drugiej zmiennej, a wartości macierzy odpowiadają liczności w próbie obserwacji o danych wartościach tych dwóch zmiennych.
 
W [[statystyka|statystyce]] zbiory danych zwykle stanowią wyniki obserwacji pewnej [[próba statystyczna|próby statystycznej]]. W statystyce teoretycznej niekiedy tworzy się zbiory danych sztucznie (np. w celu sprawdzenia jak dana metoda statystyczna reaguje na różne rozkłady w [[populacja statystyczna|populacji]]). Istnieją też zaawansowane metody obliczania [[istotnośćpoziom statystycznaistotności|istotności statystycznej]], które wymagają usuwania lub powielania obserwacji w zbiorze (np. [[bootstrap (statystyka)|bootstrap]], [[Sprawdzian krzyżowy|walidacja krzyżowa]]).
Historycznie, termin powstał w świecie komputerów [[IBM]] [[mainframe]], gdzie miał dobrze zdefiniowane znaczenie, bliskie współczesnym [[plik]]om. Dzisiaj w świecie komputerów najbliższym pojęciem jest [[tabela (bazy danych)|tabela]] w [[baza danych|bazie danych]].
 
Chociaż termin "zbiór„zbiór danych"danych” sugeruje związek ze [[zbiór|zbiorami]] w sensie matematycznej [[teoria mnogości|teorii mnogości]],to jednak analogia ta nie sięga daleko. Elementy zbioru danych mogą się powtarzać, w przeciwieństwie do elementów matematycznych[[Zbiór|zbioru zbiorówmatematycznego]].
Kolumny reprezentujące zmienne na skali [[skala interwałowa|interwałowej]] lub [[skala przedziałowa|przedziałowej]] zawierają [[liczby rzeczywiste]]. Kolumny opisujące zmienne na skali [[skala nominalna|nominalnej]] i [[skala porządkowa|porządkowej]] mogą również być liczbami, ale także np. etykietami tekstowymi.
 
Ponadto w może w dowolnej komórce wystąpić [[brakujące dane|brak danych]], który musi być w jakiś sposób możliwy do odróżnienia. Niekiedy rezerwuje się dla niego specjalną wartość liczbową i znakową.
 
W [[statystyka|statystyce]] zbiory danych zwykle stanowią wyniki obserwacji pewnej [[próba statystyczna|próby statystycznej]]. W statystyce teoretycznej niekiedy tworzy się zbiory danych sztucznie (np. w celu sprawdzenia jak dana metoda statystyczna reaguje na różne rozkłady w [[populacja statystyczna|populacji]]). Istnieją też zaawansowane metody obliczania [[istotność statystyczna|istotności statystycznej]], które wymagają usuwania lub powielania obserwacji w zbiorze (np. [[bootstrap (statystyka)|bootstrap]], [[walidacja krzyżowa]]).
 
Chociaż termin "zbiór danych" sugeruje związek ze [[zbiór|zbiorami]] w sensie matematycznej [[teoria mnogości|teorii mnogości]], jednak analogia ta nie sięga daleko. Elementy zbioru danych mogą się powtarzać, w przeciwieństwie do elementów matematycznych zbiorów.
 
== Klasyczne zbiory danych ==
Linia 23 ⟶ 17:
* Zbiór użyty w książce Chatfielda ''The Analysis of Time Series'', [http://lib.stat.cmu.edu/modules.php?op=modload&name=PostWrap&file=index&page=datasets/ dostępny on-line ze stron StatLib.]
* Zbiór użyty w książce ''An Introduction to the Statistical Modeling of Extreme Values'' [http://homes.stat.unipd.it/coles/public_html/ismev/ismev.dat dostępny on-line ze stron Stuarta Coles], autora książki.
* Zbiór użyty w książce ''[[statystykaPrawdopodobieństwo bayesowskasubiektywne|Bayesian]] Data Analysis'', [http://www.stat.columbia.edu/~gelman/book/data/ dostępny on-line ze stron Andrew Gelmana], jednego z autorów książki.
* [ftp://ftp.ics.uci.edu/pub/machine-learning-databases/liver-disorders Bupa liver data] (dane na temat chorób [[nerka|nerek]]), używane w wielu artykułach na temat [[uczenie maszynowe|uczenia maszynowego]] i [[eksploracja danych|eksploracji danych]].
 
Linia 30 ⟶ 24:
== Zobacz też ==
* [[zbiór danych osobowych]]
* [[Sprawdzian krzyżowy|zbiór uczący]], [[Sprawdzian krzyżowy|zbiór testowy]], [[Sprawdzian krzyżowy|zbiór walidacyjny]]
 
== Linki zewnętrzne ==