Jakość danych – kwalifikacja poprawności danych, ale także ich przydatności[1].

Jakość danych to wielowymiarowa konstrukcja[2]. Definiowanie tych wymiarów oraz ocena każdego z nich zależy od zainteresowanych grup (użytkowników tych danych).

Opis edytuj

W polskiej statystyce publicznej jakość danych określana jest według Europejskiego Systemu Statystycznego za pomocą sześciu wyznaczników jakości: użyteczności, dokładności, terminowości i punktualności, dostępności i przejrzystości, przejrzystości, porównywalności, spójności[3]. Natomiast w analityce biznesowej jakość danych utożsamiana jest z kompletnością i spójnością jako centralnymi wymiarami jakości danych w systemie analitycznym[4].

Liczba źródeł danych jest zależna od wielkości organizacji oraz tego jak dynamicznie się ona rozwija. Kluczowym dla oceny sytuacji w poszczególnych obszarach jest wewnętrzna i wzajemna spójność. Z tego powodu, w celu uniknięcia chaosu informacyjnego i niekorzystnych decyzji, kluczowym jest zadbanie o właściwe zarządzanie całym procesem, tj. o odpowiednie zarządzanie jakością danych (ang. Data Quality Management)[5].

Cechy jakości danych edytuj

Jakość danych można interpretować przez pryzmat wielu ważnych cech, aspektów, których analiza pozwoli w mniejszym lub większym stopniu na dokonanie subiektywnej oceny jakości danych[6]. Informacja, która może uchodzić za jakościową, powinna posiadać następujące cechy:

  • relatywność – informacja spełnia oczekiwania odbiorcy – ma dla niego znaczenie i spełnia jego potrzeby,
  • dokładność – informacja odpowiada poziomowi wiedzy odbiorcy, wyczerpująco opisuje dany temat,
  • aktualność – informacja jest wartościowa, świeża,
  • kompletność – informacja zawiera wystarczającą liczbę danych, co może skutkować przekształceniem informacji w konkretną wiedzę,
  • spójność – poszczególne elementy i dane tworzą logiczną całość,
  • adekwatność – właściwa prezentacja oraz opis informacji umożliwiający stosowną interpretację,
  • dostępność – informacja jest dostępna zawsze, gdy jest potrzebna odbiorcom,
  • wiarygodność – informacja poświadcza autentyczność danych, zawiera elementy potwierdzające rzetelności przekazu,
  • przystawalność – informacja jest przedstawiona w sposób analogiczny z inną informacją[6].

Zarządzanie jakością danych edytuj

Jedynie właściwa strategia pozwala na skuteczne zarządzanie jakością danych. Do jej najważniejszych właściwości należą[5]:

  • wiedza o źródłach danych (miejsce ich powstania, aspekty technologiczne),
  • optymalizacja procedur (automatyzacja, standaryzacja),
  • stałość w monitorowaniu i eliminacji uszkodzonych danych wsadowych z baz,
  • wprowadzenie w życie procedur zapewnianiających czystości danych,
  • określenie odpowiedzialności za jakość danych i ich weryfikację.

Oczyszczanie danych edytuj

Oczyszczanie danych jest metodą wykrywania i usuwania lub poprawiania informacji zawartych w bazach danych, jeśli informacje te są nieprawidłowe, zduplikowane, niedokładne, nieaktualne, nadmiarowe lub niewłaściwie sformatowane[5]. Dodatkowo działanie to zapewnia o bezbłędności połączeń danych z oddzielonych baz danych. Proces czyszczenia danych bazuje na algorytmach opracowywanych przez programistów i administratorów baz danych, co pozwala na eliminację błędów, które mogłyby mieć miejsce podczas manualnej edycji baz danych[7]. Usługa czyszczenia danych wykorzystywana jest głównie w bankach, towarzystwach ubezpieczeniowych, handlu, telekomunikacji i transporcie. Programy odpowiadające za oczyszczanie danych mogą na przykład zniwelować niektóre rodzaje błędów, wprowadzić brakujące informacje lub zlokalizować zduplikowane dane[7].

Najważniejsze etapy oczyszczania danych edytuj

  • Walidacja – inaczej weryfikacja czy surowe dane nie zawierają podstawowych błędów, które mogłyby zaburzyć równowagę całego procesu. Z tego powodu walidacja powinna być pierwszym krokiem w procesie oczyszczania danych,
  • Formatowanie do wspólnej wartości (standaryzacja) – polega na sprowadzeniu do wspólnej wartości liczby użytkowników, którzy np. w wyszukiwarkę e-commerce wpisali frazy kluczowe oznaczające to samo, ale sformułowali je w inny sposób, np. odzież sportowa, ciuchy do ćwiczeń, ubrania sportowe,
  • Czyszczenie duplikatów – eliminowanie zduplikowanych elementów powstałych w wyniku segregowania danych,
  • Uzupełnianie brakujących danych vs. usuwanie danych niepełnych – w celu dokonania analizy potrzebna jest kompletna baza danych, należy więc dodać brakujące informacje oraz pozbyć się niekompletnych danych, które mogą rozregulowywać wyniki,
  • Wykrywanie konfliktów w bazie danych – ostatni etap oczyszczania danych, polega on na odsianiu wartości, które wzajemnie się wykluczają[5].

Przypisy edytuj

  1. Katarzyna Błaszczyk, Ryszard Knosala. Problem jakości danych w hurtowniach. „Prace Naukowe/Akademia Ekonomiczna w Katowicach”, 2006. 
  2. Leo L. Pipino, Yang W. Lee, Richard Y. Wang, Data Quality Assessment, 2002, DOI10.1145/505248.506010.
  3. Jacek Maślankowski, Analiza jakości danych pozyskiwanych ze stron internetowych z wykorzystaniem rozwiązań Big Data, „Roczniki Kolegium Analiz Ekonomicznych”, 38, 2015, s. 167–177.
  4. Ohbyung Kwon, Namyeon Lee, Bongsik Shin, Data quality management, data usage experience and acquisition intention of big data analytics, „International Journal of Information Management”, 34 (3), 2014, s. 387–394, DOI10.1016/j.ijinfomgt.2014.02.002 [dostęp 2022-02-04] (ang.).
  5. a b c d Czym jest jakość danych i dlaczego ma tak duże znaczenie dla analityki biznesowej? [online], Enterium, 22 października 2021 [dostęp 2022-02-04] (pol.).
  6. a b Czym więc jest jakość danych? Kiedy dane mają dobrą jakość, a kiedy złą? [online], Digital Finance Excellence, 22 października 2020 [dostęp 2022-02-04] (pol.).
  7. a b Czyszczenie Danych [online], Bazy wiedzy WASKO S.A. [dostęp 2022-02-04].