Wersja z 14:39, 29 maj 2008 edytuj 83.25.143.149 (dyskusja) asa ← poprzednia edycja		Wersja z 14:39, 29 maj 2008 edytuj anuluj edycję ClueBot~plwiki (dyskusja \| edycje) 26 630 edycji Anulowanie wersji użytkownika 83.25.143.149 do wersji użytkownika 83.5.251.68. Zgłoś nieprawidłowy rewert. (6611) następna edycja →
Linia 1: '''Zbiór danych''' jest kolekcją [[dane\|danych]] [[statystyka\|statystycznych]] zwykle ujętych w formie stabelaryzowanej. Najczęściej kolumny odpowiadają obserwowanym [[cecha statystyczna\|cechom statystycznym]] a każdy wiersz opisuje jedną [[obserwacja statystyczna\|obserwację]] z [[próba statystyczna\|próby]]. Wartości komórek macierzy opisują realizacje danych [[zmienna losowa\|zmiennych]] w kolejnych obserwacjach. Szczególnym przypadkiem jest też [[macierz kontyngencji]] ([[tablica wielodzielcza]]) w której wiersze odpowiadają etykietom jednej [[zmienna nominalna\|zmiennej nominalnej]], kolumny etykietom drugiej zmiennej, a wartości macierzy odpowiadają liczności w próbie obserwacji o danych wartościach tych dwóch zmiennych. Historycznie, termin powstał w świecie komputerów [[IBM]] [[mainframe]], gdzie miał dobrze zdefiniowane znaczenie, bliskie współczesnym [[plik]]om. Dzisiaj w świecie komputerów najbliższym pojęciem jest [[tabela (bazy danych)\|tabela]] w [[baza danych\|bazie danych]]. Kolumny reprezentujące zmienne na skali [[skala interwałowa\|interwałowej]] lub [[skala przedziałowa\|przedziałowej]] zawierają [[liczby rzeczywiste]]. Kolumny opisujące zmienne na skali [[skala nominalna\|nominalnej]] i [[skala porządkowa\|porządkowej]] mogą również być liczbami, ale także np. etykietami tekstowymi. Ponadto w może w dowolnej komórce wystąpić [[brakujące dane\|brak danych]], który musi być w jakiś sposób możliwy do odróżnienia. Niekiedy rezerwuje się dla niego specjalną wartość liczbową i znakową. W [[statystyka\|statystyce]] zbiory danych zwykle stanowią wyniki obserwacji pewnej [[próba statystyczna\|próby statystycznej]]. W statystyce teoretycznej niekiedy tworzy się zbiory danych sztucznie (np. w celu sprawdzenia jak dana metoda statystyczna reaguje na różne rozkłady w [[populacja statystyczna\|populacji]]). Istnieją też zaawansowane metody obliczania [[istotność statystyczna\|istotności statystycznej]], które wymagają usuwania lub powielania obserwacji w zbiorze (np. [[bootstrap (statystyka)\|bootstrap]], [[walidacja krzyżowa]]). Chociaż termin "zbiór danych" sugeruje związek ze [[zbiór\|zbiorami]] w sensie matematycznej [[teoria mnogości\|teorii mnogości]], jednak analogia ta nie sięga daleko. Elementy zbioru danych mogą się powtarzać, w przeciwieństwie do elementów matematycznych zbiorów. == Klasyczne zbiory danych == Kilka zbiorów danych jest bardzo często używanych w literaturze: * ''[[Iris flower data set]]'' (zbiór danych na temat [[irys]]ów)- wielowymiarowy zbiór danych wprowadznony przez [[Ronald Fisher\|Rolanda Fishera]] (1936).<ref name="fisher36">{{cytuj książkę\|autor=Fisher, R.A. \|tytuł=The Use of Multiple Measurements in Taxonomic Problems\|wydawca=[[Annals of Eugenics]]\| strony=tom 7, str 179–188\| rok=1936}} http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf</ref> * Zbiór danych wprowadzony w książce ''An Introduction to Categorical Data Analysis'', autorstwa Agrestiego, dostępny [http://lib.stat.cmu.edu/datasets/agresti on-line ze stron StatLib] * Zbiór danych używany w ''Robust Regression and Outlier Detection'' (Rousseeuw and Leroy, 1986). [http://www.uni-koeln.de/themen/Statistik/data/rousseeuw/ Dostępny on-line ze stron Uniwersytetu w Kolonii.] * Zbiór użyty w książce Chatfielda ''The Analysis of Time Series'', [http://lib.stat.cmu.edu/modules.php?op=modload&name=PostWrap&file=index&page=datasets/ dostępny on-line ze stron StatLib.] * Zbiór użyty w książce ''An Introduction to the Statistical Modeling of Extreme Values'' [http://homes.stat.unipd.it/coles/public_html/ismev/ismev.dat dostępny on-line ze stron Stuarta Coles], autora książki. * Zbiór użyty w książce ''[[statystyka bayesowska\|Bayesian]] Data Analysis'', [http://www.stat.columbia.edu/~gelman/book/data/ dostępny on-line ze stron Andrew Gelmana], jednego z autorów książki. * [ftp://ftp.ics.uci.edu/pub/machine-learning-databases/liver-disorders Bupa liver data] (dane na temat chorób [[nerka\|nerek]]), używane w wielu artykułach na temat [[uczenie maszynowe\|uczenia maszynowego]] i [[data mining]]. {{przypisy}} == Zobacz też == * [[zbiór danych osobowych]] * [[zbiór uczący]], [[zbiór testowy]], [[zbiór walidacyjny]] == Linki zewnętrzne == * {{lang\|en}} [http://lib.stat.cmu.edu/datasets/ StatLib--Datasets Archive] * {{lang\|en}} [http://lib.stat.cmu.edu/jasadata/ StatLib--JASA Data Archive] [[Kategoria:Przygotowanie danych]] [[en:Data set]]

Zbiór danych: Różnice pomiędzy wersjami