Optyczne rozpoznawanie znaków: Różnice pomiędzy wersjami

[wersja nieprzejrzana][wersja przejrzana]
Usunięta treść Dodana treść
...............
Wycofano ostatnią zmianę treści (wprowadzoną przez 77.252.179.137) i przywrócono wersję 42339669 autorstwa PawełMM
Linia 1:
'''OCR''' ([[Język angielski|ang.]] ''Optical Character Recognition'') – zestaw technik lub [[oprogramowanie]] służące do rozpoznawania znaków i całych tekstów w [[plik]]u [[Grafika komputerowa|graficznym]] o postaci [[Grafika rastrowa|rastrowej]]. Zadaniem OCR jest zwykle rozpoznanie tekstu w [[Skaner|zeskanowanym]] dokumencie (np. papierowym formularzu lub stronie książki).
..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
 
Niegdyś termin oznaczał samo rozpoznawanie ciągów znaków, głównie drukowanych, które są łatwiejsze do rozpoznania, dziś również pisma odręcznego oraz cech [[format]]owania, jak [[krój pisma]], [[stopień pisma]], [[interlinia]] (techniki służące do tego typu zaawansowanego rozpoznawania nazywane są terminem [[ICR]]), a nawet [[Tabela|układów tabelarycznych]], np. formularzy.
 
Techniki OCR wykorzystywane są m.in. przy [[Digitalizacja (bibliotekarstwo)|digitalizacji]] zasobów [[Biblioteka|bibliotek]], a także jako ułatwienie przy odczytywaniu danych z formularzy wypełnianych pismem odręcznym. W obu przypadkach oprogramowanie OCR nie jest tak skuteczne jak człowiek, zatem w przypadkach wątpliwych (trudności z odczytaniem fragmentu) oraz w celu uniknięcia błędów nieodzowna jest weryfikacja wyniku OCR przez człowieka.
 
Nowoczesną metodą współpracy oprogramowania OCR z ludźmi jest technika [[reCAPTCHA]]<ref>{{cytuj stronę | url =http://ocrwdokumentach.pl/jak-digitalizujemy-ksiazki-o-tym-nie-wiedzac/ | tytuł = Artykuł opisujący schemat działania reCAPTCHY| data dostępu = 2013-08-14 | opublikowany = ocrwdokumentach.pl}}</ref>. Nie wymaga ona zatrudniania osób specjalnie do weryfikacji OCR, lecz wykorzystuje rozproszoną aktywność milionów użytkowników [[Internet]]u, którzy wchodząc na [[Strona internetowa|strony internetowe]] zabezpieczone przez [[CAPTCHA]] rozpoznają fragmenty tekstu wymagające weryfikacji.
 
Postęp w oprogramowaniu OCR jest bardzo widoczny – drogie komercyjne oprogramowanie z lat 90. XX wieku wymagało dobrego skanu, najlepiej w językach zachodnioeuropejskich. Obecne (2013) produkty potrafią rozpoznawać mało dokładne skany, wykonane telefonami komórkowymi z szumami na obrazkach, z tekstem napisanym pod nienaturalnymi kątami w 120-186 językach<ref>http://ocr-software-review.toptenreviews.com/.</ref>.
 
== Zasada działania ==