Systém pro syntézu řeči z psaného textu Epos

Systém pro syntézu řeči z psaného textu Epos (jinak také TTS systém z angl. Text-To-Speech) je vyvíjen jako volně šířitelný software a je možné jej najít na adrese http://epos.speech.cz/ .

Hlavním impulsem pro jeho vývoj byla skutečnost, že v dosavadních řečových syntezátorech bylo nutno veškeré jazykové vlastnosti jako např. fonetickou transkripci (převod psané formy na mluvenou) a prozodická pravidla (tj. popis intonace a rychlosti řeči) psát přímo do zdrojového kódu syntezátoru. Z toho vyplývá, že prozodická pravidla mohl modifikovat v podstatě pouze autor zdrojového kódu syntezátoru.

Na základě této situace byl v r. 1996 motivován vývoj otevřeného systému pro převod psaného textu na řeč, ve kterém se jak transkripční, tak prozodická pravidla mohou zapisovat pomocí speciálního makrojazyka do konfiguračních souborů bez nutnosti znalosti zdrojového kódu a následné kompilace. Tento systém, původně určený především pro potřeby výzkumu a výuky, později dostal jméno Epos.

Jelikož zdrojový kód systému Epos je téměř nezávislý na syntetizovaných jazycích, je Epos vysoce konfigurovatelný. Epos umožňuje též paralelní zpracování více úloh v různých konfiguracích a v různých jazycích. K dispozici jsou nyní konfigurace pro češtinu a slovenštinu, v experimentální fázi jsou pravidla pro angličtinu, němčinu a latinu.

TTS systém Epos je založen na klient-server architektuře. Epos je možné kombinovat s několika různými syntezátory řeči ve frekvenční a v časové oblasti. Pro Epos byly vytvořeny jak mužské, tak ženské hlasy lišící se kvalitou i velikostí řečového inventáře. Dále je možné vybírat z několika strategií modelování prozodie: prostřednictvím přímých pravidel, pomocí lineární predikce melodie či pomocí neuronových sítí.

Epos je vytvořen z důrazem na paměťovou a časovou efektivitu zpracování. Celý TTS proces je mnohonásobně rychlejší nežli reálný čas na běžném osobním počítači i při použití dnešních nejkvalitnějších hlasů a jeho paměťová stopa se v závislosti na konfiguraci pohybuje v jednotkách megabytů. Lze ji dále významně snížit za cenu snížení kvality syntézy např. na telefonní kvalitu. Epos je velice přenosný a je otestován zejména v prostředí Linuxu (jako démon) a MS Windows NT/2000/XP/Vista/7 (jako systémová služba). Jedna z dřívějších verzí se dočkala rovněž komerčního nasazení pod systémem QNX v energetickém dispečinku a portace pod Windows CE/Windows Mobile.

Aktuální instalační soubor stabilní verze Eposu (2.4.85) pro operační systémy MS Windows XP/Vista/7 podporou rozhraní MS SAPI 5 je možné stáhnout zde. Po instalaci do Windows se Epos spustí jako služba TTSCP (Text-to-Speech Control Protocol) a k ozvučení textu je nutné použít nějaký program podporující rozhraní SAPI 5, např. Balabolka.

Pro další informace můžete kontaktovat p. Horáka (horakp @ fzu.cz, tel. 603 243 649).