VALL-E nově umí reprodukovat jakýkoli hlas z krátké zvukové nahrávky
Společnost Microsoft se pochlubila svým nejnovějším přírůstkem v oblasti umělé inteligence a převodu textu na řeč. Model VALL-E totiž nově dokáže simulovat něčí hlas z pouhé třísekundové zvukové nahrávky. Takto reprodukovaný hlas odpovídá emocionálnímu zabarvení tónu mluvčího, a dokonce i akustice místnosti. Do budoucna by se tato technologie mohla používat ve špičkových aplikacích určených pro převod textu na řeč, podobně jako deepfake s sebou ale nese také riziko zneužití.
Výzkumníci popisují, že VALL-E trénovali na 60 000 hodinách řeči v anglickém jazyce od více než 7 000 mluvčích v rámci zvukové knihovny LibriLight společnosti Meta. Hlas, který se pokouší napodobit, se tedy prozatím musí podobat hlasu z těchto dat. Pokud tomu tak je, použije tento typ hlasu k odvození toho, jak by cílový mluvčí zněl, kdyby odříkával požadovaný text.
Výsledky prozatím nejsou vždy úspěšné, některé nahrávky znějí strojově, ale jiné až překvapivě realisticky (ukázky si můžete poslechnout zde). Řada z nich navíc dokáže zachovat emocionální zabarvení původní promluvy a odpovídají také akustickému prostředí, a tedy se zdá, že řeč pochází ze stejného místa.
Nyní má Microsoft v plánu model dále vylepšovat, a to zejména z hlediska prozódie, stylu řeči a podobností jednotlivých mluvčích. Zkoumá také způsoby, jak omezit slova, která jsou nejasná nebo vynechaná.
Microsoft se rozhodl nezpřístupnit kód jako open source, pravděpodobně kvůli rizikům spojeným se zneužitím, které je v tomto případě velmi vysoké. Vzhledem k tomu, že VALL-E by mohl syntetizovat řeč, která zachovává identitu mluvčího, bylo by snadné jej využít například při krádeži identity mluvčího.
Zdroj: engadget.com