Kwartet Anscombe’a

Kwartet Anscombe'a to zestaw czterech zestawów danych o identycznych cechach statystycznych, takich jak średnia arytmetyczna, wariancja, współczynnik korelacji czy równanie regresji liniowej, jednocześnie wyglądających zgoła różnie przy przedstawieniu graficznym. Układ tych danych został stworzony w 1973 roku przez brytyjskiego statystyka Francisa Anscombe'a aby ukazać znaczenie graficznej reprezentacji danych przy okazji ich analizy statystycznej.

Wszystkie cztery zestawy danych wydają się być identyczne, jeżeli weźmiemy pod uwagę ich charakterystykę statystyczną, ale znacznie różnią się od siebie w ujęciu graficznym

Cechy układów edytuj

Cecha Wartość
Średnia arytmetyczna zmiennej x 9
Wariancja zmiennej x 11
Średnia arytmetyczna zmiennej y 7.50 (identyczna do dwóch cyfr po przecinku)
Wariancja zmiennej y 4.122 lub 4.127 (identyczna do trzech cyfr po przecinku)
Współczynnik korelacji pomiędzy zmiennymi 0.816 (identyczny do trzech cyfr po przecinku)
Równanie regresji liniowej   (identyczny do kolejno: dwóch i trzech miejsc po przecinku)
Współczynnik determinacji R² 0,666 (różnica pojawia się dopiero na czwartym miejscu po przecinku)

Dane wejściowe edytuj

Poniższa tabela zawiera dane wejściowe użyte przez Anscombe'a do przedstawienia problemu.

Kwartet Anscombe'a
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

Bibliografia edytuj

  • F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 lutego 1973, s. 17-21.
  • Tufte, Edward R. (2001). The Visual Display of Quantitative Information, 2nd Edition, Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2
  • Sangit Chatterjee and Aykut Firat (2007). "Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset", American Statistician, 61(3), 248-254.