„Microsoft“ sukūrė naują dirbtinio intelekto kalbos generatorių, kuris yra toks įtikinamas, kad negali būti skelbiamas viešai.

VALL-E 2 yra teksto į kalbą (TTS) generatorius, kuris gali atkurti žmogaus balsą naudodamas vos kelias sekundes garso įrašo.

„Microsoft“ tyrėjai straipsnyje, kuris birželio 17 d. pasirodė serveryje „arXiv“, teigė, kad VALL-E 2 sugeba generuoti „natūralią kalbą, tiksliai atitinkančią originalaus kalbėtojo balsą ir prilygstančią žmogaus darbui“.

Kitaip tariant, naujasis dirbtinio intelekto balso generatorius yra pakankamai įtikinamas, kad jį būtų galima supainioti su tikru žmogumi – bent jau taip teigia jo kūrėjai, rašo livescience.com.

„VALL-E 2 yra naujausias neuroninių kodų kalbos modelių patobulinimas, kuris žymi nulinio teksto sintezės (TTS) etapą, pirmą kartą pasiekiant žmogiškąjį lygiavertiškumą“, – rašė mokslininkai straipsnyje.

„Be to, VALL-E 2 nuosekliai sintetina aukštos kokybės kalbą, net ir sakinius, kurie tradiciškai yra sudėtingi dėl savo sudėtingumo ar pasikartojančių frazių.“

Tik mokslinių tyrimų projektas

Nepaisant savo galimybių, „Microsoft“ nepateiks VALL-E 2 visuomenei dėl galimo piktnaudžiavimo pavojaus. Tai sutampa su didėjančiu susirūpinimu dėl balso klonavimo ir „deepfake“ technologijos.

„VALL-E 2 yra grynai mokslinių tyrimų projektas. Šiuo metu neplanuojame įtraukti VALL-E 2 į produktą ar išplėsti prieigą visuomenei“, – rašė tyrėjai tinklaraščio įraše. „Tai gali kelti potencialią riziką netinkamai naudojant modelį, pavyzdžiui, suklastojant balso identifikavimą arba apsimetant konkrečiu kalbėtoju.“

Vis dėlto jie užsiminė, kad dirbtinio intelekto kalbos technologija ateityje gali sulaukti praktinio pritaikymo. „VALL-E 2 galėtų sintetinti kalbą, kuri išlaiko kalbėtojo tapatybę ir galėtų būti naudojama mokomajam mokymuisi, pramogoms, žurnalistikai, savarankiškai sukurtam turiniui, prieinamumo funkcijoms, interaktyvioms balso atsako sistemoms, vertimui, pokalbių robotams ir pan.“, – pridūrė tyrėjai.