Foto: se svolením Meta

Meta představila generativní AI model převodu textu na řeč Voicebox

Společnost Meta představila Voicebox, svůj generativní model převodu textu na řeč, který slibuje pro mluvené slovo to, co ChatGPT a Dall-E pro generování textu a obrázků. Jde o AI model, který je vytvořen za účelem na doplňování řeči s ohledem na zvukový kontext a text. Byl vycvičen na více než 50 000 hodinách zvukových stop. Konkrétně Meta použila nahranou řeč a přepisy z několika audioknih z veřejných domén napsaných v angličtině, francouzštině, španělštině, němčině, polštině a portugalštině.

Tento rozmanitý soubor dat umožňuje systému generovat více konverzačně znějící řeč bez ohledu na jazyky, kterými mluví jednotlivé strany. Systém byl nejprve naučen předpovídat segmenty řeči na základě segmentů v jejich okolí a také na základě přepisu úryvku, díky čemuž by mělo být možné generovat zvukovou stopu i uprostřed záznamu, aniž by bylo nutné jej přehrávat celý.

Voicebox je prý také schopen aktivně upravovat zvukové klipy, odstraňovat z řeči šum, a dokonce nahrazovat chybně vyslovená slova. „Uživatel by mohl určit, který nezpracovaný segment řeči je poškozen šumem (například štěkotem psa), oříznout jej a dát modelu pokyn, aby tento segment nahradil,“ uvedl příklad možného využití výzkumný tým.

Generátory převodu textu na řeč jsou tu už nějakou dobu, ale stále vyžadují obrovské množství zdrojového materiálu, aby správně napodobily svého mluvčího. Voicebox nic takového nepotřebuje, a to díky nové metodě trénování převodu textu na řeč, kterou společnost Meta nazývá Flow Matching.

Aplikace Voicebox ani její zdrojový kód ale zatím nebyly uvolněny pro veřejnost, a to kvůli potenciálním rizikům zneužití. Nicméně výzkumný tým doufá, že si technologie v budoucnu najde cestu do protéz pro pacienty s poškozením hlasivek, herních NPC a do digitálních asistentů.

Zdroj: engadget.com