Foto: Pixabay

VALL-E nově umí reprodukovat jakýkoli hlas z krátké zvukové nahrávky

Společnost Microsoft se pochlubila svým nejnovějším přírůstkem v oblasti umělé inteligence a převodu textu na řeč. Model VALL-E totiž nově dokáže simulovat něčí hlas z pouhé třísekundové zvukové nahrávky. Takto reprodukovaný hlas odpovídá emocionálnímu zabarvení tónu mluvčího, a dokonce i akustice místnosti. Do budoucna by se tato technologie mohla používat ve špičkových aplikacích určených pro převod textu na řeč, podobně jako deepfake s sebou ale nese také riziko zneužití.

Výzkumníci popisují, že VALL-E trénovali na 60 000 hodinách řeči v anglickém jazyce od více než 7 000 mluvčích v rámci zvukové knihovny LibriLight společnosti Meta. Hlas, který se pokouší napodobit, se tedy prozatím musí podobat hlasu z těchto dat. Pokud tomu tak je, použije tento typ hlasu k odvození toho, jak by cílový mluvčí zněl, kdyby odříkával požadovaný text.

Zdroj: Microsoft

Výsledky prozatím nejsou vždy úspěšné, některé nahrávky znějí strojově, ale jiné až překvapivě realisticky (ukázky si můžete poslechnout zde). Řada z nich navíc dokáže zachovat emocionální zabarvení původní promluvy a odpovídají také akustickému prostředí, a tedy se zdá, že řeč pochází ze stejného místa.

Nyní má Microsoft v plánu model dále vylepšovat, a to zejména z hlediska prozódie, stylu řeči a podobností jednotlivých mluvčích. Zkoumá také způsoby, jak omezit slova, která jsou nejasná nebo vynechaná.

Microsoft se rozhodl nezpřístupnit kód jako open source, pravděpodobně kvůli rizikům spojeným se zneužitím, které je v tomto případě velmi vysoké. Vzhledem k tomu, že VALL-E by mohl syntetizovat řeč, která zachovává identitu mluvčího, bylo by snadné jej využít například při krádeži identity mluvčího.

Zdroj: engadget.com