Korpusomat
Korpusomat – narzędzie służące do tworzenia i przeszukiwania elektronicznych korpusów językowych[1], powstałe w Instytucie Podstaw Informatyki Polskiej Akademii Nauk.
Autor | Instytut Podstaw Informatyki PAN |
---|---|
System operacyjny | Windows, Linux, FreeBSD, MacOS X |
Rodzaj | program do zarządzania korpusami językowymi |
Licencja | freeware |
Strona internetowa |
Korpusomat należy do grupy narzędzi korpusowych czwartej generacji[2]. Jest aplikacją webową, co eliminuje konieczność przechowywania zbiorów danych na własnym komputerze. Tworzenie korpusu odbywa się albo poprzez dodanie plików tekstowych z lokalnego dysku (w dowolnym języku[3] i formacie[4]), albo przez wskazanie stron internetowych, z których teksty mają zostać pobrane automatycznie[5]. Następnie, korpus jest znakowany automatycznie na kilku poziomach: fleksyjnym, rozpoznawania jednostek nazewniczych (np. nazw geograficznych czy osób) i częściowej informacji składniowej (która umożliwia też wizualizację drzew zależnościowych)[3][6]. Gotowy korpus można edytować, współdzielić z innymi użytkownikami i przeszukiwać[3][6]. Dostępny jest też szereg funkcji oferujących podsumowania statystyczne zgromadzonych tekstów[3][6].
Przypisy
edytuj- ↑ Aplikacja dostępna jest pod adresem: https://korpusomat.eu
- ↑ Laurence Anthony , A critical look at software tools in corpus linguistics, „Linguistic Research”, 30 (2), 2013, s. 141-161 .
- ↑ a b c d Karol Saputa i inni, Korpusomat. eu: A multilingual platform for building and analysing linguistic corpora, „International Conference on Computational Science”, Springer Nature Switzerland, 2023, s. 230-237 .
- ↑ Pełna lista możliwych formatów jest dostępna pod adresem: https://tika.apache.org/1.17/formats.html
- ↑ Tworzenie korpusu — Korpusomat EU 0.1 - dokumentacja [online], readthedocs.io [dostęp 2024-04-23] (pol.).
- ↑ a b c Witold Kieraś , Łukasz Kobyliński , Korpusomat – stan obecny i przyszłość projektu, „Język Polski”, 2021, s. 49–58, DOI: 10.31286/JP.101.2.4, ISSN 2720-1406 .