Neuronové sítě by měly pomoci vyhledávání v audiu a videu

Věda a technika
30. 6. 2013 09:00
Pomocí neuronových sítí by mělo být vyhledávání v audio stejně snadné jako v textu.
Pomocí neuronových sítí by mělo být vyhledávání v audio stejně snadné jako v textu.

Vědci hledají cestu, jak se snáze orientovat v obsahu mluvených audio a video záznamů na internetu. Cílem je dosáhnout podobné lehkosti, s jakou lze prostřednictvím vyhledavačů pátrat po informacích v digitalizovaných textech. S rozpoznáváním řeči pomáhají takzvané umělé neuronové sítě. S kolegy ze zahraničí pracuje na výzkumu skupina BUT Speech@FIT na Fakultě informačních technologií Vysokého učení technického v Brně, řekla mluvčí školy Jitka Vanýsková.

Neuronové sítě jsou výpočetní model používaný nejčastěji ve spojení s umělou inteligencí. Inspirují se biologickou strukturou lidského mozku. Jejich přínos spočívá v takzvaném paralelním zpracování dat. Každý z neuronů má mnoho vstupů, ale jen jeden výstup, a také rozdílný práh citlivosti.

"Neuronové sítě patří do takzvaného strojového učení, kdy máme k dispozici známá data - v našem případě stovky hodin záznamů řeči i s přeřeky, "váhacími" zvuky a podobně. Na tomto základě budujeme systémy, které dokážou zobecňovat," popisuje Jan Černocký z VUT. Systémy si pak díky schopnosti zobecnění poradí i s tím, co neznají a co do nich nebylo nikdy předtím zadáno.

V obrovském množství audiozáznamů, které dnes internet obsahuje, se těžko orientuje. Vědci tvrdí, že v budoucnu postačí zadat klíčové slovo, index, a speciální program nabídne ty správné nahrávky s požadovanými daty.

Brněnský výzkum se cíleně zaměřil na rozpoznávání běžného slovního projevu, u něhož řečníci ani nepředpokládali, že bude analyzován počítačem. Vedle akustického modelování je ale důležitý ještě jazykový model, který zasazuje data do kontextu a ve výsledku nabízí správné řešení.

Programy z oblasti rozpoznávání řeči, které už v minulosti vznikly na VUT v Brně, úspěšně uvádí do praxe firma Phonexia. Využívají je například velké banky nebo ministerstva vnitra několika států. Software dokáže rozpoznat třeba hlas konkrétní osoby nebo pohlaví mluvčího.

Možnosti využití počítačového zpracování řeči v praxi jsou široké. Studenti mohou najít tu správnou informaci v přednášce třeba na adrese www.superlectures.com. Manažeři call center získávají nástroj, jak si ověřit, že telefonisté pracují správně, nenabízejí třeba konkurenční zboží a nejsou na zákazníky hrubí.

Autor: ČTK Foto: Shutterstock

Naše nejnovější vydání

TÝDENInstinktSedmičkaINTERVIEWTV BARRANDOVPŘEDPLATNÉ