Synteza mowy

Synteza mowy – dział przetwarzania mowy polegający na mechanicznej zamianie tekstu zapisanego w postaci znakowej na wypowiedź (mowę) w postaci dźwiękowej. Maszynę lub program komputerowy zamieniający tekst na mowę określa się mianem syntezatora mowy. W zależności od syntezatora, możemy uzyskać bardzo dokładną wymowę także słów nietypowych, literowanie różnych skrótów, odczytywanie liczb w tym również ułamków oraz odczytywanie dat poprzez dekomponowanie liczb. Syntezatory mowy mają wiele zastosowań. Pozwalają na zautomatyzowanie informowania bądź alarmowania użytkownika, są pomocne przy nauce języków obcych oraz tłumaczeniach, mogą także np. odczytywać dokumenty pisane alfabetem Brailla.

Sprzęt

Można wydzielić dwa rodzaje syntezatorów – programowe (programy komputerowe) i sprzętowe (urządzenia peryferyjne). Dostępne są różnorodne wersje oprogramowania komputerowego, popularne w użyciu są tzw. screenreadery czytające tekst z ekranu. W użyciu znajdują się również urządzenia peryferyjne komputerów (np. syntezator SMP-4), jak i urządzenia samodzielne, np. mówiące skanery (np. Poet compact), czytające drukowany tekst bezpośrednio z kartki, czy mówiące notesy (np. polski Kajetek 2000) jako urządzenia przenośne.

Synteza komputerowa

Aby wygenerować dźwięk, używa się standardowego mechanizmu wbudowanego w systemy Windows (Windows 3.x, 95, 98, Me, 2000, XP) – Multimedia Control Interface (MCI) lub w systemy Linux – rsynth. Dzięki temu mechanizmowi syntezator mowy może bez konfliktów funkcjonować na komputerach z zainstalowaną kartę dźwiękową.

Proces syntezy mowy TTS (ang. Text To Speech)

Proces syntezy mowy etykietowany jest często akronimem TTS (z ang. text to speech, tekst na mowę). Dzielimy go na dwa główne etapy, składające się z wielu pośrednich kroków, wymagających sporej wiedzy lingwistycznej i matematycznej. W pierwszym etapie program wydobywa z wprowadzonej frazy jak największą ilość informacji lingwistycznych – stara się zrozumieć tekst. Etap ten nazywany jest przetwarzaniem języka naturalnego – NLP (ang. Natural Language Processing).

W etapie NLP wyróżniamy następujące działania

analiza znaczenia tekstu
transkrypcja fonetyczna
generowanie prozodii
wysłanie danych do DSP

Na podstawie zdobytych informacji następuje synteza dźwiękowej frazy – jest to etap cyfrowego przetwarzania sygnału DSP (ang. Digital Signal Processing).

Na etapie DSP zachodzą takie procesy jak

odbiór fonemów i prozodii z etapu NLP
dekodowanie / dekompresja segmentów (dzięki bazie segmentów)
dopasowanie prozodii
konkatenacja, czyli łączenie segmentów
synteza sygnału
generowanie mowy

Rodzaje syntezy sygnału mowy

Niektóre syntezatory korzystają z alofonicznej metody syntezy mowy. Polega ona na składaniu potrzebnych słów z dźwięków elementarnych. Każdy z dźwięków zapamiętywany jest w pamięci komputera i w odpowiedniej chwili i kolejności zostaje odtworzony. Metoda wymaga dużych mocy obliczeniowych komputera, a efekt końcowy jest trochę mechaniczny.

Drugą metodą jest metoda konkatenacyjna. Polega na nagraniu dużej bazy prawdziwego głosu lektora (tzw. baza segmentów), jej oznaczeniu i przetworzeniu, a następnie w procesie syntezy mowy wybieraniu, modyfikowaniu oraz składaniu sygnału mowy z fragmentów wcześniejszych nagrań. Technika ta pozwala na uzyskanie mowy najbardziej naturalnej.

Ewaluacja syntezy mowy

Ewaluacja syntezy mowy polega na ocenie jakości, jak i poprawności wypowiedzi generowanych przez syntezatory mowy. Główne kryteria oceny syntezy mowy to zrozumiałość i naturalność. Chcąc dobrze przetestować dany syntezator należy zwrócić uwagę na poniższe aspekty:

Wymowa liczb

W zależności od jakości syntezatora może on wymawiać liczby literując je jako cyfry lub składać liczby na postać mówioną.

Przykład: 1876

Najgorszy wynik jaki możemy uzyskać to taki, w którym syntezator przeczyta liczbę jako „jeden osiem siedem sześć”, dobry wynik to „jeden tysiąc osiemset siedemdziesiąt sześć”. Najlepszym wynikiem będzie przeczytanie powyższej liczby pomijając zbędne w tym przypadku słowo „jeden”.

Wymowa godzin i dat

Dobry syntezator powinien rozpoznawać w tekście format daty (z kropkami lub ukośnikami jako separatory) lub godziny (z dwukropkiem jako separator) i odczytywać go zgodnie z zasadami.

Przykład: „Spotkanie przełożono na 12.12.2009 na 11:45.”

W najgorszym przypadku syntezator odczyta powyższe zdanie literując kolejne cyfry w dacie i godzinie. Dobrym wynikiem będzie odczytanie daty i godziny jako „...dwunasty grudnia dwa tysiące dziewięć na jedenasta czterdzieści pięć”. Idealnie działający syntezator będzie potrafił odmienić wzorzec godziny – w tym wypadku: „na jedenastą czterdzieści pięć”.

Należy również sprawdzić czy syntezator „nie da się oszukać”, gdy w formacie daty lub godziny podamy niepoprawne dane.

Przykład: 11:69 12.13.2009

Syntezator powinien pominąć fakt, iż dane zostały podane w formacie godziny i daty i odczytać powyższy tekst literując kolejne cyfry.

Rozpoznawanie skrótów i skrótowców

Przy ocenie syntezatorów warto również zwrócić uwagę na rozpoznawanie skrótów. Dobry syntezator mowy polskiej powinien być w stanie rozwinąć skróty: „inż.”, „tel.”, „płn.”, „jw.”, „np.”, „dr”, „mgr”, „p.n.e.” do postaci „inżynier”, „telefon”, „północ”, „jak wyżej”, „na przykład”, „doktor”, „magister”, „przed naszą erą”. Bardzo dobrym wynikiem byłoby również odczytanie przez syntezator skrótów matematycznych takich, jak: „sin”, „cos”, „log” jako: „sinus”, „kosinus”, „logarytm”.

Duże znaczenie ma również sposób odczytywania skrótowców literowych i głoskowych. Przy natrafieniu na skrótowce syntezator powinien umieć rozróżnić z jakim rodzajem skrótowca ma do czynienia i wypowiedzieć litery osobno w przypadku literowców lub łącznie jako suma głosek w przypadku głoskowców.

Przykłady: „AGD”, „NBP”, „PZU” – litery skrótowca powinny zostać odczytane osobno („a-gie-de”,„en-be-pe”,„pe-zet-u”); „GUS”, „NATO”, „ZUS” – litery skrótowca powinny zostać odczytane łącznie („gus”,„nato”,„zus”).

Wymowa wyjątków

W języku polskim istnieje kilka wyrazów, które odbiegają od przyjętych reguł wymowy. Dobry syntezator mowy w przypadku napotkania takiego wyrazu powinien odczytać go odbiegając od ustalonych zasad.

Przykłady: tarzan, marznąć

Odczytanie przez syntezator powyższych słów, a także ich odmian takich, jak: „zamarznąć”, „przymarznąć”, nie składając „rz” w „ż”, jest najlepszym wynikiem.

Oceniając naturalność syntezatorów, należałoby przy ich ocenie zwrócić uwagę na:

Akcentowanie

Akcent w języku polskim jest stały. Zasadniczo pada na drugą sylabę od końca. Od tej zasady są jednak pewne wyjątki. W niektórych formach akcentowana jest sylaba trzecia od końca (np. botanika, informatyka, logika, matematyka, pisaliśmy, skoczyliście, pięciuset, komitet, minimum, ryzyko).

Przy ocenianiu naturalności wymawianych przez syntetyzator zdań należy zwrócić uwagę czy stosuje się on do powyższych zasad. Do testów można posłużyć się wyrazami, które zawierają dwie takie same, sąsiadujące ze sobą sylaby. Mimo iż są identyczne to nie powinny brzmieć tak samo (np. „mama”, „tata”). Aby całe zdania brzmiały naturalnie, syntezator powinien także reagować odpowiednio na znaki interpunkcyjne: ',' '.' '?' '!' oraz ich brak (np. zdanie niezakończone kropką powinno brzmieć inaczej niż to samo zakończone kropką).

Polskie syntezatory mowy

Najbardziej znanym polskim syntezatorem mowy jest Ivona, opracowany przez firmę Ivo Software. Program ten dwa razy z rzędu został uznany za syntezator generujący mowę o najwyższej jakości na międzynarodowym konkursie Blizzard Challenge w USA oraz Niemczech, pokonując produkty takich firm jak IBM, Microsoft czy Nokia. W 2013 roku firma została kupiona przez Amazon.

Jednym z pierwszych polskich sprzętowych syntezatorów mowy był SMP, czyli Syntezator Mowy Polskiej. Został on opracowany przez Konrada Łukaszewicza z Instytutu Biocybernetyki i Inżynierii Biomedycznej PAN. W czasach świetności komputerów domowych istniały polskie syntezatory na komputery ZX Spectrum (Mowa PL), jak i Commodore 64 (zmodyfikowany angielski SAM).

Firmy oraz przykładowe produkty branży syntezy mowy

READBOARD – pierwszy polski syntezator mowy polskiej pod system operacyjny DOS.
SPEAK II – syntezator mowy polskiej pod Windows.
ALTIX – producent syntezatora mowy READBOARD i SPEAK II.
Ivona^[1] – polski, uznawany za najlepszy na świecie syntezator mowy polskiej.
Synteza korpusowa PJWSTK Szklanny^[2] – nowy Korpusowy Syntezator mowy, bardzo naturalnie brzmiący, pełny darmowy system.
SynTalk – jeden z pierwszych syntezatorów mowy polskiej.
Syntezator Mowy Polskiej – jeden z pierwszych syntezatorów mowy polskiej.
Drive (syntezator mowy) – grupa programistyczna programu Lektor (syntezator mowy).
DANT – syntezator mowy polskiej.
Milena^[3] – syntezator mowy polskiej dla środowiska Linux we współpracy z silnikiem MBROLA(inne języki) (ang.).
Powiedz – syntezator mowy polskiej dla środowiska Linux.
Nuance^[4] – producent i dostawca rozwiązań głosowych i językowych. System Nuance Vocaliser obsługuje 43 języki, w tym także język polski, łącznie w 63 odmianach (głos męski i żeński). Dostępne są wersje Basic (numeracja, cyfry, daty, zegar, kwoty i waluty, numery lotów) oraz Studio (dla biznesu, służby zdrowia, operatorów).
CNIN – Centrum Komputerowe dla Studentów Niewidomych i Niepełnosprawnych dostarczające m.in. oprogramowania i sprzętów syntezujących mowę.
Synteza mowy – darmowy Serwer Syntezy Mowy WP działający jako wtyczka z komunikatorami np. Spik, WPKontakt.
Ivona Software – polski komercyjny producent oprogramowania syntezującego mowę.
ECE – polska firma produkująca sprzętowe syntezatory mowy – producent polskiego syntezatora mowy SMP.
Scansoft (obecnie Nuance Communications) – twórca standardu Realspeak, na którym opierają się niektóre polskie syntezatory.
Acapela-group – zagraniczna grupa programistyczna dostarczająca serwery naturalnej mowy, w tym i polskiej.
MBROLA(inne języki) – akademicki projekt międzynarodowej syntezy mowy.
Blazie – zagraniczna firma oferująca rozwiązania syntezy mowy Braill to Speach.
Syntezator Konkatenacyjny ZF PAN – pierwszy polski syntezator, powstały w poznańskim Zakładzie Fonetyki Akustycznej, Polskiej Akademii Nauk, oparty na syntezatorze formantowym MEA 8000.
Pediaphon – serwis syntezujący artykuły w Wikipedii do postaci audio.
E-IVN^[5] (Interactive Voice News) – syntezator mowy on line.
Neospeech Text to Speech(inne języki) – synteza języka angielskiego i języków dalekowschodnich.

Zobacz też

metody ewaluacji syntezy mowy – Mean Opinion Score

Przypisy

↑ Ivona.
↑ PJWSTK – Szklanny.
↑ Milena.
↑ Nuance.
↑ E-IVN. e-ivn.pl. [zarchiwizowane z tego adresu (2018-12-07)].

Linki zewnętrzne

Synteza mowy polskiej – akademicka strona związana z zagadnieniami syntezy mowy oraz darmowymi programami typu TTS
Tekstu na Mowe

[1] Ivona.

[2] PJWSTK – Szklanny.

[3] Milena.

[4] Nuance.

[5] E-IVN. e-ivn.pl. [zarchiwizowane z tego adresu (2018-12-07)].

[1]

[2]

[3]

[4]

[5]