Microsoft vyvinul AI na převod textu na řeč pomocí pouhých 200 vzorků hlasů

Microsoft ve spolupráci s čínskými odborníky vyvinul AI na převod textů na řeč pomocí pouhých 200 hlasových vzorků (v délce zhruba 20 minut) a odpovídajících transkripcí. Funguje částečně jako lidský mozek.

Systém se konkrétně opírá o síť hlubokého učení typu Transformer, která napodobuje neurony v mozku. Transformery – jako všechny sítě hlubokého učení – obsahují umělé neurony (tedy matematické funkce vytvořené volně podle biologických neuronů), které jsou uspořádané ve vzájemně propojených vrstvách, které přenáší „signály“ ze vstupních dat a pomalu upravují synaptickou sílu či „váhu“ každého spojení (takto modely extrahují funkce a učí se činit predikce). Transformery se však od běžných sítí hlubokého učení liší tím, že „váží“ každý vstupní a výstupní prvek průběžně jako synaptická spojení, což jim umožňuje zpracovávat velmi efektivně i dlouhé sekvence, např. komplexní věty.

Výsledky sice nejsou dokonalé (v hlasu je slyšet lehký robotický „přízvuk“), jsou však vysoce přesné – konkrétně systém slova generuje s přesností (srozumitelností) 98,84 %. Technické detaily o AI uvedl softwarový gigant na vývojářské platformě GitHub, kde také v budoucnu zveřejní její zdrojový kód.

 

Zdroj: endgadget.com, speechresearch.github.io/unsuper/