Společnost Meta vydává open source sadu s umělou inteligencí, která vytváří zvuk z textových pokynů

Středa 02. 08. 2023

Gabriela

Společnost Meta pomocí umělé inteligence usnadní umělcům a zvukovým designérům tvorbu zvuku. Facebook uvolnil open source sadu AudioCraft, která sdružuje tři existující generativní modely AI pro vytváření zvuků z textových popisů. AudioGen a MusicGen vytvářejí zvukové efekty a hudbu, zatímco EnCodec komprimuje zvuky, aby bylo dosaženo kvalitnějších výsledků. Hudebník nebo zvukový designér tak může mít vše, co potřebuje ke skládání skladeb.

Verze obsahuje předtrénované modely AudioGen pro ty, kteří chtějí rychle začít. „Debut s otevřeným zdrojovým kódem pak dává profesionálům a výzkumníkům možnost trénovat modely pomocí vlastních dat,“ říká Meta. Všechny předtrénované modely využívají buď veřejný nebo společností Meta vlastněný materiál, takže nehrozí žádné spory o autorská práva.

„Obrázky a texty vytvářené umělou inteligencí jsou velmi populární, ale zvuk zatím trochu zaostává,“ komentovala AudioCraft společnost Meta. Stávající projekty bývají komplikované a často uzavřené. Nová sada dává tvůrcům možnost utvářet vlastní modely.

Nejedná se o jedinou otevřenou umělou inteligenci pro převod textu na zvuk na trhu. Společnost Google v květnu zpřístupnila svůj model MusicLM. Systém Meta také není určen pro běžné uživatele – pro správné používání AudioCraftu budete muset být poměrně technicky zdatní. Podle společnosti je určen spíše pro výzkum. Vývojáři se také snaží zlepšit výkon a způsoby ovládání těchto modelů a rozšířit tak jejich potenciál.

I v současném stavu AudioCraft může naznačit budoucí roli umělé inteligence v hudbě. Umělci pravděpodobně pomocí AI nenahradí zcela svou vlastní kreativitu, ale získávají stále více nástrojů, které jim umožní vytvářet doprovodné stopy, samply a další prvky s relativně malým úsilím.

Zdroj: engadget.com