Bank drzewkorpus, w którym każde zdanie zostało sparsowane. Struktura zdania jest zazwyczaj reprezentowana w postaci drzewa – stąd też pochodzi nazwa. Zdania w banku powinny być autentyczne, nie zaś spreparowane sztucznie.

Struktura drzewiasta dla zdania Janek widzi Marysię
S – Sentence (zdanie)
N – Noun (rzeczownik)
VP – Verb Phrase (fraza czasownikowa)
V – Verb (czasownik)
N – Noun (rzeczownik)

Banki drzew mogą być tworzone ręcznie, gdzie lingwiści oznaczają każde zdanie strukturą syntaktyczną, lub półautomatycznie, gdzie analizator składniowy oznacza każde zdanie, a lingwiści sprawdzają i ewentualnie je poprawiają. W praktyce budowa banku drzew jest zadaniem bardzo pracochłonnym i może zająć wiele lat.

Bank drzew jest językowym zasobem, który dostarcza przypisów do języka naturalnego na różnych poziomach strukturalnych: na poziomie słowa, frazy, zdania, a czasami także na poziomie struktury funkcja-argument.

Zastosowania banków drzew

edytuj

Banki drzew mogą służyć między innymi do analizy zjawisk syntaktycznych i do testowania parserów. Na jego podstawie można analizować częstość występowania różnych form gramatycznych, a także odkrywać nowe.

Można wymienić kilka różnych podejść do zastosowań banków drzew:

  • źródła danych dla narzędzi automatycznego przetwarzania języków naturalnych
  • źródła danych dla porównywania parserów
  • źródła danych do syntaktycznej analizy złożonego tekstu
  • dowód poprawności twierdzeń[1]

Mimo że twórcy większości banków drzew deklarują, że ich banki drzew będą używane do prawie wszystkich wymienionych wyżej celów, głęboka analiza pokazuje, że jest to wyjątkowo trudne, jeśli nie niemożliwe.

Polski Bank Drzew

edytuj

Obecnie[kiedy?] polski bank drzew jest w trakcie tworzenia. Jego tworzeniem zajmuje się Instytut Podstaw Informatyki PAN. Zakończenie projektu planowane jest na 2011 rok.[2]

Zobacz też

edytuj

Przypisy

edytuj
  1. Takie zastosowanie jest rzadko stwierdzone jawnie, ale często stanowi dodatkową motywację do budowania banków drzew.
    Zobacz: http://www.linguateca.pt/documentos/SantosPROPOR2003Timber.rtf (en)
  2. IPI PAN – Projekty badawcze finansowane z krajowych środków publicznych. [dostęp 2009-01-17]. [zarchiwizowane z tego adresu (2011-01-30)].

Bibliografia

edytuj
  • "M. Marciniak, A. Mykowiecka, A. Przepiórkowski & A. Kupść, An HPSG-Annotated test Suite for Polish LREC 2000"