Otwórz menu główne

Anonimizacja danych

procedura uniemożliwiająca identyfikację osób których dane dotyczą

Anonimizacja danych – polega na przekształceniu danych osobowych w sposób uniemożliwiający przyporządkowanie poszczególnych informacji do określonej lub możliwej do zidentyfikowania osoby fizycznej albo, jeżeli przyporządkowanie takie wymagałoby niewspółmiernych kosztów, czasu lub działań[1] (art. 3 pkt 1 ustawy z dnia 16 września 2011 r. o wymianie informacji z organami ścigania państw członkowskich Unii Europejskiej, Dz. U. 2011 Nr 230, poz. 1371).

Anonimizacja pozwala na trwałe usunięcie powiązań między danymi osobowymi, a osobą, której dotyczą. W ten sposób informacje, które przed anonimizacją były danymi osobowymi, przestają nimi być.

Spis treści

Metody anonimizacji danych[2]Edytuj

Każda z metod anonimizacji w inny sposób modyfikuje dane. Odmienne charakterystyki metod powodują, że wybór techniki uzależniony jest od uwarunkowań danej sytuacji. Niektóre z technik dają możliwość użycia ich w kombinacji (np. supresja rejestrów po generalizacji). Metody anonimizacji danych to:

  1. Randomizacja – losowy rozdział danych w celu wyeliminowania ścisłego związku między danymi a konkretną osobą fizyczną. Zmiana układu danych w zestawie tak, aby poszczególne wartości zmiennych nadal były reprezentowane w zbiorze danych, generalnie nie odpowiadając oryginalnemu rejestrowi. Dodatkowe techniki stosowane w randomizacji to:
    • Dodanie zakłóceń, czyli modyfikacja atrybutów osób fizycznych, która utrudnia identyfikację np. zmiana miejsca zamieszkania, modyfikacja wieku o +/− 5 lat.
    • Permutacja, czyli tasowanie wartości atrybutów w tabelach przez podstawianie wartości z jednego zapisu do innego zapisu.
  2. Generalizacja (uogólnienie) – celowe obniżenie precyzji danych (np. zmiana dokładnego wieku osoby na przedział wiekowy).
  3. Supresja atrybutów – odnosi się do usunięcia całej partii danych (w arkuszach i bazach danych nazywanej również “kolumną”) w zestawie danych.
  4. Supresja rejestrów – dotyczy usunięcia całego rejestru w zestawie danych. W odróżnieniu od innych technik, ta metoda wpływa na wiele zmiennych jednocześnie.
  5. Maskowanie znaków – zmiana znaków wartości danych np. przez użycie stałego symbolu (np. „*” lub „x”). Maskowanie dotyczy tylko części znaków danej zmiennej.
  6. Pseudonimizacja (kodowanie) – zamiana wartości zmiennej z rzeczywistych na fikcyjne. Odwracalna pseudonimizacja występuje, gdy rzeczywiste wartości zmiennej są bezpiecznie przechowywane i w razie potrzeby mogą zostać odzyskane i połączone z pseudonimem. Gdy pierwotne wartości zostaną odpowiednio usunięte, pseudonimizacja jest nieodwracalna.
  7. Perturbacja danych – za dane rzeczywiste podstawiane są wartości, które w niedużym stopniu odbiegają od oryginalnych wartości zmiennej.
  8. Dane syntetyczne – technika używana głównie do bezpośredniego generowania syntetycznych zestawów danych, bez związku ze zbiorem danych rzeczywistych.
  9. Agregacja danych – konwersja listy wartości danych w zagregowane wielkości.

Korzyści związane z wykorzystaniem anonimizacji danych[3]Edytuj

  • Spełnienie zgodności z przepisami ochrony danych osobowych.
  • Zapewnienie bezpieczeństwa danych w środowisku nieprodukcyjnym.
  • Brak konieczności uzyskania zgody na przetwarzanie danych.
  • Możliwość wykorzystania danych zanonimizowanych do innych celów niż wstępnie założone.
  • Dane mogą być przechowywane przez nieograniczony okres czasu.
  • Istnieje możliwość międzynarodowego eksportowania danych.

Zagrożenia towarzyszące anonimizacji danych[3]Edytuj

  1. Ryzyko wyodrębnienia – możliwość wyizolowania niektórych lub wszystkich wartości identyfikujących daną osobę w zbiorze danych.
  2. Ryzyko powiązania – możliwość powiązania co najmniej dwóch wartości dotyczących tego samego podmiotu danych lub grupy podmiotów (zarówno w jednej, jak i dwóch różnych bazach danych).
  3. Ryzyko konkluzji – możliwość dedukcji wartości zmiennej ze zbioru wartości innych zmiennych.

Narzędzia do anonimizacji danych[4]Edytuj

PrzypisyEdytuj

  1. Ustawa z dnia 16 września 2011 r. o wymianie informacji z organami ścigania państw członkowskich Unii Europejskiej, prawo.sejm.gov.pl [dostęp 2018-11-20] (pol.).
  2. Personal Data Protection Commission Singapore (PDPC), GUIDE TO BASIC DATA ANONYMISATION TECHNIQUES, 25 stycznia 2018.
  3. a b The Ultimate Guide to Data Anonymization in Analytics – Piwik PRO, „Piwik PRO”, 12 lipca 2018 [dostęp 2018-11-21] (ang.).
  4. Gartner, Inc., Data Masking Technologies Reviews, Gartner [dostęp 2018-11-21] (ang.).
  5. ronitr, Usługa Azure SQL Database dynamiczne maskowanie danych, docs.microsoft.com [dostęp 2018-11-21] (pol.).
  6. Oracle Data Masking and Subsetting Pack, www.oracle.com [dostęp 2018-11-21] (ang.).
  7. Guardium Data Protection – Polska | IBM, www.ibm.com [dostęp 2018-11-21] (pol.).
  8. Data Masking: Data Obfuscation & Encryption | Informatica US, www.informatica.com [dostęp 2018-11-21] (ang.).
  9. Informatica [dostęp 2018-11-21] (ang.).
  10. Data Express | Micro Focus, www.microfocus.com [dostęp 2018-11-21].
  11. index, www.mentisoftware.com [dostęp 2018-11-21] (ang.).
  12. CA Test Data Manager | CA Communities, ca-tech.jiveon.com [dostęp 2018-11-21] (pol.).
  13. Test Data Privacy – Compuware, „Compuware” [dostęp 2018-11-21] (ang.).
  14. IRI FieldShield Data Masking | IRI, The CoSort Company, www.iri.com [dostęp 2018-11-21] (ang.).
  15. Database Protector | Protegrity, „Protegrity” [dostęp 2018-11-21] (ang.).
  16. Vormetric Vaultless Tokenization with Dynamic Data Masking | Vaultless Data Tokenization | Thales eSecurity, www.thalesesecurity.com [dostęp 2018-11-21] (ang.).
  17. Soflab, gall.soflab.pl [dostęp 2018-11-21] (ang.).