Foto: se svolením Meta

Meta představila nové funkce, které do AI překladače přidávají emoce mluvčího

V srpnu společnost Meta představila svůj multimodální překladový model s umělou inteligencí SeamlessM4T, který podporuje téměř 100 jazyků pro text a 36 pro řeč. S aktualizovanou architekturou v2 nyní společnost tento nástroj rozšiřuje, aby konverzační překlady byly spontánnější a expresivnější, přičemž právě expresivita je chybějícím aspektem k autentické konverzaci napříč jazyky.

První ze dvou nových funkcí je SeamlessExpressive, která (jak je již patrné z názvu) přenáší expresivitu mluvčího do překládané řeči. Konkrétně jde o výšku hlasu, hlasitost, emocionální tón (vzrušení, smutek nebo šepot), tempo řeči a pauzy. Vzhledem k tomu, že přeložené projevy dosud vždy zněly roboticky, je tento průlom potenciálně převratný. Mezi podporované jazyky prozatím patří angličtina, španělština, němčina, francouzština, italština a čínština.

Druhou funkcí je SeamlessStreaming, která začne překládat řeč, zatímco mluvčí stále mluví, a umožní tak ostatním získat překlad rychleji. Stále je zde krátká latence necelé dvě sekundy, ale alespoň uživatelé nebudou muset čekat, než někdo dokončí větu. Podle společnosti Meta je problém v tom, že různé jazyky mají různou strukturu vět, takže musela vyvinout algoritmus který dokázal rozeznat, zda již získal dostatek kontextu pro zahájení generování přeloženého výstupu, nebo zda má pokračovat v poslechu.

Přestože zatím není známo, kdy bude moci veřejnost tyto nové funkce využívat, již nyní je jasné, že překladový model společnosti Meta je velmi působivý a pravděpodobně v budoucnu najde široké využití.

Zdroj: engadget.com