Foto: Unspash

V největším souboru dat pro generování obrázků umělou inteligencí se našel materiál týkající se sexuálního zneužívání dětí

Výzkumníci ze Stanfordovy univerzity tvrdí, že soubor dat používaný k tréninku nástrojů pro vytváření obrázků umělou inteligencí obsahuje nejméně 1008 ověřených případů materiálů se sexuálním zneužíváním dětí (CSAM). Výzkumníci poznamenali, že přítomnost CSAM v datové sadě by mohla umožnit AI modelům, které byly na těchto datech vyškoleny, generovat nové, a dokonce realistické materiály tohoto typu.

Nezisková organizace LAION, která datovou sadu vytvořila, uvedla, že uplatňuje politiku nulové tolerance vůči nelegálnímu obsahu a z důvodu opatrnosti dočasně stáhla datové sady. Organizace dodala, že před prvním zveřejněním svých datových sad vytvořila filtry, které odhalují a odstraňují nelegální obsah. Ani to ale, zdá se, nestačilo.

Podle dřívějších zpráv obsahuje dotyčný soubor dat LAION-5B miliony obrázků s pornografií, násilím, dětskou nahotou, rasistickými memy, nenávistnými symboly, uměleckými díly chráněnými autorskými právy a díly z webových stránek soukromých společností. Celkově obsahuje více než 5 miliard obrázků a souvisejících popisků (samotná datová sada neobsahuje žádné obrázky, ale spíše odkazy na obrázky a alt texty). Zakladatel společnosti LAION Christoph Schuhmann na začátku letošního roku uvedl, že si sice není vědom žádného CSAM v datovém souboru, ale že data nezkoumal příliš precizně.

Vzhledem k obrovskému množství dat, která umělá inteligence stáhla, je však nemožné se CSAM vyhnout. Některé AI modely volně dostupné na internetu přitom nemají žádnou ochranu proti tomuto typu dat. Podle výzkumníků ze Stanfordovy univerzity by tyto modely by měly být co nejdříve vyřazeny z provozu.

Zdroj: engadget.com