Analiza powiązań w danych

W teorii sieci analiza połączeń (analiza grafów) jest techniką analizy danych używaną do oceny relacji (połączeń) między obiektami (węzłami). Połączenia (relacje) mogą być identyfikowane i analizowane pomiędzy różnymi typami obiektów (węzłów), tj. organizacje, osoby, transakcje czy zdarzenia. Analiza połączeń jest jedną z podstawowych metod wykorzystanych do wykrywania przestępstw i działalności przestępczej (wykrywanie oszustw, zwalczanie terroryzmu, przeciwdziałanie praniu pieniędzy, analiza zorganizowanych grup przestępczych czy analiza wywiadowcza), analizy bezpieczeństwa informatycznego, optymalizacji wyszukiwarek i badania medyczne.

Odkrywanie wiedzy edytuj

Odkrywanie wiedzy jest iteracyjnym i interaktywnym procesem służącym do identyfikacji, analizy i wizualizacji wzorców w danych.[1] Analiza połączeń oraz analiza sieci społecznościowych to metody odkrywania wiedzy. Większość metod odkrywania wiedzy wymaga następujących kroków[2]:

  1. Przetwarzania danych (Data processing)
  2. Proces transformacji danych
  3. Proces analizy danych (Analysis)
  4. Proces wizualizacji danych

Analiza powiązań jest wykorzystywana w 3 podstawowych celach[3]:

  • Wyszukiwania i dopasowania obiektów i powiązań dla znanych wzorców;
  • Wyszukiwania anomalii, uwzględniając znane wzorce;
  • Odkrywania nowych wzorców.

Zbieranie, przetwarzanie, normalizowanie, łączenie (JOIN) i analizowanie wraz z wizualizacją dużych danych typu Big Data w powyższych celach ma kilka nieodłącznych problemów m.in. przeciążenie informacji czy problemy z wydajnością obliczeniową.

Historia edytuj

Klerks podzielił historię analizy powiązań w kryminologii na 3 generacje[4]. Pierwsza generacja została zainicjowana w 1975 przez narzędzia Anacapa, wprowadzone w publikacji Harpera i Harrisa[5]. Technika zdominowała wówczas amerykańską analizę kryminalną do tego stopnia, że analitycy policyjni byli często nazywani analitykami Anacapa[brak potwierdzenia w źródle]. Ta metoda wymaga, aby ekspert domeny przeglądając pliki danych identyfikował powiązania przez konstruowanie macierzy asocjacyjnej, tworzył graf powiązań pomiędzy obiektami i na koniec analizował go w celu zidentyfikowania wzorców. Wymaga obszernej wiedzy o domenie i jest niezwykle czasochłonna przy przeglądaniu dużych ilości danych.

Rozwiązania drugiej generacji składają się z automatycznych narzędzi do analizy opartych na graficznych wizualizacjach, takich jak IBM i2 Analyst's Notebook, Netmap, ClueMaker. Narzędzia te umożliwiają automatyzację budowy wykresów powiązań po wcześniejszym ręcznym utworzeniu macierzy asocjacyjnej, jednak analiza rezultatów nadal wymaga eksperta z rozległą wiedzą na temat domeny.

Trzecia generacja narzędzi do analizy powiązań, takich jak platforma DataWalk, pozwala na automatyczną analizę i wizualizację powiązań między obiektami w dużych i rozproszonych zestawach danych (typu big data). Rozwiązania łączą analizy przestawne i analiz grafowe pozwalając wykonywać złożone operacje analityczne na całej populacji danych zachowując przy tym wysoką wydajność obliczeniową. Wyniki takich operacji mogą następnie służyć jako obszar do dalszego eksplorowania.

Wyzwania analizy powiązań edytuj

Przeciążenie informacyjne edytuj

Za sprawą ogromnej ilości danych i informacji przechowywanych w formie elektronicznej w różnych źródłach (np. bazy danych przynależne do systemów transakcyjnych wewnątrz organizacji, zewnętrzne źródła danych np. publiczne rejestry tj. KRS czy dane pochodzące z wywiadu źródeł jawnych) organizacje i użytkownicy stają w obliczu wielu, niezwiązanych, zawierających brudne dane, źródeł informacji dostępnych do analizy. Same dane mają nieodłączne problemy, w tym integralność (lub jej brak) oraz podleganie ciągłym zmianom. Dane mogą zawierać błędy powstałe na skutek niewłaściwego ich wprowadzania i składowania, a także gdy podmioty próbują aktywnie oszukiwać i / lub ukrywać swoje działania.

W efekcie tych wyzwań powstała nowa deficytowa specjalizacja tzw. data scientist. Według raportu autorstwa McKinsey Global Institute zapotrzebowanie na mistrzów danych w USA sięga 250 tys. nieobsadzonych stanowisk.

Problemy z wydajnością obliczeniową edytuj

Wyzwania związane z analizą powiązań spowodowały powstanie rozwiązań zwanych silnikami analiz grafowych, które zazwyczaj działają w pamięci operacyjnej komputera. Jednak potrzeba analizy grafów posiadających wiele miliardów wierzchołków i krawędzi powoduje, że zasoby potrzebne do obliczeń mogą być większe niż dostępne w powszechnie używanych jednostkach. Aby przezwyciężyć tę trudność stosuje się rozwiązania horyzontalnie skalowalne. Ponieważ podział grafu na mniejsze składowe (tzw. sharding), na których obliczenia mogą być prowadzone równolegle zależy od jego własnej struktury i jest trudny jako osobne zagadnienie, to rozwijane jest wiele podejść takie jak Pregel czy GraM, które mogą działać efektywnie, pomimo nieoptymalnego rozłożenia danych pomiędzy węzły klastra.

Przypisy edytuj

  1. Inc., The Tor Project,. "Tor Project: Overview", https://www.torproject.org/about/overview.html.en
  2. Ahonen, H., Features of Knowledge Discovery Systems. https://www.cs.helsinki.fi/u/hahonen/features.txt
  3. Link Analysis Workbench, Air Force Research Laboratory Information Directorate, Rome Research Site, Rome, New York, September 2004.
  4. Peter Klerks, The network paradigm applied to criminal organizations: Theoretical nitpicking or a relevant doctrine for investigators? Recent developments in the Netherlands, „Connections”, 24 (3), 2001, s. 53-65.
  5. Harper and Harris, The Analysis of Criminal Intelligence, Human Factors and Ergonomics Society Annual Meeting Proceedings,, 1975.