Zbiór danych: Różnice pomiędzy wersjami

Usunięte 12 bajtów ,  4 lata temu
WP:SK+ToS+Bn+mSI, drobne redakcyjne, drobne techniczne
m (Dodaję nagłówek przed Szablon:Przypisy)
(WP:SK+ToS+Bn+mSI, drobne redakcyjne, drobne techniczne)
'''Zbiór danych''' – kolekcja [[daneDane statystyczne|danych]] [[statystyka|statystycznych]] zwykle ujętych w formie stabelaryzowanej. Najczęściej kolumny odpowiadają obserwowanym [[cecha statystyczna|cechom statystycznym]], a każdy wiersz opisuje jedną [[obserwacja statystyczna|obserwację]] z [[próba statystyczna|próby]]. Wartości komórek macierzy natomiast opisują realizacje danych [[zmienna losowa|zmiennych]] w kolejnych obserwacjach. Szczególnym przypadkiem jest też [[tabele krzyżowe|macierz kontyngencji]] ([[tablica wielodzielcza]]), w której wiersze odpowiadają etykietom jednej [[skala nominalna|zmiennej nominalnej]], kolumny etykietom drugiej zmiennej, a wartości macierzy odpowiadają liczności w próbie obserwacji o danych wartościach tych dwóch zmiennych.
 
Kolumny reprezentujące zmienne na skali [[skala interwałowa|interwałowej]] lub [[skala interwałowa|przedziałowej]] zawierają [[liczby rzeczywiste]], natomiast kolumny opisujące zmienne na skali [[skala nominalna|nominalnej]] i [[skala porządkowa|porządkowej]] mogą również zawierać liczby, ale także np. etykiety tekstowe. Ponadto w dowolnej komórce może także wystąpić przypadek [[brakujące dane|braku danych]], który musi być w jakiś sposób możliwy do zidentyfikowania – niekiedy rezerwuje się dla niego specjalną wartość liczbową lub znakową.
 
Historycznie, termin powstał w świecie komputerów [[IBM]] [[mainframe]], gdzie miał dobrze zdefiniowane znaczenie, bliskie współczesnym [[Plik danych|plikom]]. Dzisiaj w świecie komputerów najbardziej zbliżonym pojęciem do zbioru danych jest [[tabela (bazy danych)|tabela]] w [[baza danych|bazie danych]].
Kilka zbiorów danych jest bardzo często używanych w literaturze:
 
* ''[[Iris flower data set]]'' (zbiór danych na temat [[irys]]ów) – wielowymiarowy zbiór danych wprowadzony przez [[Ronald Fisher|Rolanda Fishera]] (1936)<ref name="fisher1936use">{{cytuj pismo | autor = Fisher, Ronald A |tytuł = The use of multiple measurements in taxonomic problems |url=http://www.comp.tmu.ac.jp/morbier/R/Fisher-1936-Ann._Eugen.pdf | tytuł = The use of multiple measurements in taxonomic problems | czasopismo = Annals of eugenics | wolumin = 7 | wydanie = 2 | strony = 179-188179–188 | rok = 1936 | język = en }}</ref>.
* Zbiór danych wprowadzony w książce ''An Introduction to Categorical Data Analysis'', autorstwa Agrestiego, dostępny [http://lib.stat.cmu.edu/datasets/agresti on-line ze stron StatLib]
* Zbiór danych używany w ''Robust Regression and Outlier Detection'' (Rousseeuw and Leroy, 1986). [http://www.uni-koeln.de/themen/Statistik/data/rousseeuw/ Dostępny on-line ze stron Uniwersytetu w Kolonii.]
 
== Linki zewnętrzne ==
* [http://lib.stat.cmu.edu/datasets/ StatLib--Datasets Archive] {{lang|en}}
* [http://lib.stat.cmu.edu/jasadata/ StatLib--JASA Data Archive] {{lang|en}}
 
73 255

edycji