Kiekvienas, turintis neseną kompiuterį su „padoria“ vaizdo plokšte, gali sukurti beveik bet kokią vizualinę realybę – pakanka tik pateikti aprašymą, ir rezultatas ekrane atsiranda lyg magija, apžvelgia arstechnica.com.

Kai kuriuos menininkus itin džiugina tokia perspektyva – kitiems ji atrodo grėsminga, tuo metu visuomenė dar mažai težino apie šią revoliuciją, kuri pirmiausia kilo tviterio, „Discord“, „Github“ bendruomenėse.

Vaizdų generavimas dirbtiniu intelektu gali būti nemažiau reikšmingas nei fotografijos išradimas, ar vizualinio meno kūrimas apskritai. Gali kilti pavojus net ir mūsų istorijos bei aplinkos suvokimui. Internete pateikiama ir pavyzdžių – paveikslėlis, kuriame Abrahamas Linkolnas dėvi kaubojaus skrybėlę. Ar kada nors taip buvo, ar tai sugeneruotas vaizdas?

Šio proceso neįmanoma sustabdyti – „Stable Diffusion“ ar vėlesni pažangesni įrankiai ženklina naują vizualinės kūrybos erą, kuri gali apversti tradicinę vizualinę mediją, apibendrina arstechnica.com.

Kuriamas vienas modelis po kito

Kol kas geriau visuomenei buvo žinomas 2022 m. balandį pristatytas „OpenAI“ sukurtas modelis „DALL-E 2“. Jis šokiravo galimybe generuoti vaizdus vien pasitelkiant žodžiais pateiktus aprašymus. Jis gali pasiūlyti įvairiausių vizualinių stilių, būti fotorealistiškas, fantastinis, ar niūrus, pilkos kasdienybės. Tereikia suformuoti užklausą. Tačiau tai uždara sistema, pirmiausia prieigą gavo žmonės su privilegijuotomis teisėmis.

O „Stable Diffusion“ yra Londone įsikūrusio buvusio rizikos draudimo fondų valdytojo Emad Emad‘o Mostaque kūrinys. Jo tikslas – per savo įmonę „Stability AI“ pristatyti naujas dirbtinio intelekto programas visuomenei.

Į traukinį šoka pagrindinės technologijų kompanijos. Netrukus po „DALL-E 2“ apie savo „tekstas į vaizdą“ dirbtinio intelekto modelius paskelbė „Google“, „Meta“. Plačiajai visuomenei prieinamas „MidJourney“ modelis nuo kovo veikia kaip „Discord“ serveris.

Rugpjūčio 22 dieną pristatytas „Stable Diffusion“ nenusileidžia „DALL-E 2“ kokybei. Atviras kodas leidžia kiekvienam jį koreguotis, įgyvendinti projektus be ribojimų. Tačiau vartotojai gali naudotis ir komercine svetaine „DreamStudio“, kuri parduoda kompiuterinius išteklius vaizdų generavimui.

Vien per pastarąją savaitę atsirado dešimtys naujų projektų, kurie „Stable Diffusion“ pritaiko radikaliai skirtingomis kryptimis. Naudotojai išgauna netikėtus rezultatus.

Pavyzdžiui, pasinaudojus technika „vaizdas į vaizdą“, patobulinti seni „MS-DOS“ laikų 8bit paveikslėliai. Kitame projekte „Minecraft“ žaidimo grafika buvo paversta į realistišką.

Vaizdų generavimas sumažina barjerą ir padidina menininkų galimybes, daug geros kokybės vaizdų galės generuoti plačioji visuomenė.

Ko reikia, norint „Stable Diffusion“ naudoti savo kompiuteryje? Arstechnica.com apžvalgininkai dvi savaitės bandėsi modelį „Windows“ aplinkoje naudodami „RTX 3060 12GB“ vaizdo plokštę. 512×512 pikselių rezoliucijos vaizdą sugeneruoti jiems užtrukdavo maždaug 10 sekundžių. Tačiau pati galingiausia „RTX 3090 Ti“ vaizdo plokštė tą patį leido padaryti per 4 sekundes.

Atsiranda ir įvairių prieigos galimybių – nuo komandinių eilučių ar „Google Colab“ užrašinių, iki patobulintų bet vis tiek sudėtingų grafinių sąsajų. Neturint techninių žinių, gali netekti ilgai laukti, kol pasirodys paprastutės programos. O šiuo metu galima išbandyti ir demo versiją čia.

Kaip tai veikia?

Vaizdus generuojantys modeliai paprastai naudoja techniką vadinama latentine difuzija. Modelis išmoksta atpažinti panašias formas fone, kuriame gausu triukšmo, tuomet galiausiai išryškina tuos elementus, jei jie atitinka užklausų žodžius.

Tokį modelį ruošiantys programuotojai pirmiausia surenka daug vaizdų su aprašymais ir suformuoja didelį duomenų rinkinį. Pavyzdžiui, „Stable Diffusion“ apmokytas naudojant 5 milijardus viešai internete prieinamų vaizdų, paimtų iš „Pinterest“, „DevianArt“, ar „Getty Images“. Taip dirbtinis intelektas į save sugėrė gausybę skirtingų menininkų stilių, nepaisant to, kad dalis jų net ir griežtai pasisakė prieš tokią praktiką, paaiškina arstechnica.com.
Kompiuteriu sugeneruoti vaizdai (https://github.com/CompVis/stable-diffusion)

Toliau modelis buvo treniruojamas naudojant šimtus labai galingų vaizdo plokščių, tokių kaip „Nvidia A100“. Pats kūrėjas E. Mostaque skaičiavo, kad „Stable Diffusion“ treniravimas iki šiol kainavo 600 tūkst. dolerių. Įprastai tai gali pareikalauti ir milijonų dolerių. Treniruojamas modelis susiejo žodžius su vaizdais. Besimokydamas jis kuria asociacijas, kiek spalvoti pikseliai atitinka vieną ar kitą subjektą ar jų santykius. Pats modelis nesupranta santykio plačiąja prasme, tačiau rezultatai gali būti neįtikėtini ir stebinantys – sudaromi vaizdai ir stiliaus deriniai, kurių piešimas, atrodytų, reikalauja intelekto.

Kompiuteriniam modeliui nerūpi, ar žmogus turi tris rankas, ar dvi galvas, jis tik parenka labiausiai statistiškai atitinkantį vaizdą, kaip apsimokė. Tad norint išgauti norimą vaizdą, gali tekti daug sykių koreguoti užklausą. Kuo labiau užklausa atitiks įprastus paveikslėlius internete, kuriuos analizavo mašinos, tuo geresnis bus rezultatas. Tikėtina, kad modeliai ateityje patobulės tiek, kad nereikės ir to – pats modelis įvertins savo kūrinį ir išfiltruos netinkamus rezultatus.

Kelia etinių ir teisinių dilemų

Dirbtiniu intelektu pagrįsti modeliai daliai kelia paniką. Kaip tai paveiks mus kultūriškai ar ekonomiškai? Kam priklauso sugeneruotas vaizdas? Kaip bus su vaizdais, kurie pažeidžia įstatymus, pvz., pornografija, smurtu, suklastotomis įžimybių nuotraukomis ar pan.?

Oficiali „Stable DIffusion“ licencija oficialiai draudžia nelegalų naudojimą, tačiau kadangi kodas atviras – bet kas jį gali koreguoti kaip nori. Internete kažką atsekti ir įrodyti gali būti itin sudėtinga.

Nepaisant to, modelio kūrėjas įsitikinęs, kad galimos naudos atsveria bet kokias rizikas – jis tiki individualia kiekvieno asmens atsakomybe.

Dalis menininkų pyksta dėl to, kad „Stable Diffusion“ išmoko juos imituoti – galbūt jų darbų pateko į duomenų rinkinius, tai kelia klausimų dėl autorinių teisių. Remiantis teisiniais precedentais JAV, duomenų rinkimas ten yra teisėtas, tik įstatymas gali atsilikti nuo sparčiai besivystančių technologijų.


Internete besimokantis modelis gali išmokti ir visų internete slypinčių problemų, pvz., kultūrinio šališkumo, stereotipų, netolerantiškumo ir kt. Pavyzdžiui, vartotojams bandant modelį, bet kokia užklausa, kurioje buvo nurodoma „graži moteris“, pateikdavo vienokią ar kitokią nuogo kūno formą, pastebi arstechnica.com. Tad be papildomos apsaugos tokius įrankius naudoti gali būti ir pavojinga.

Kaip bebūtų, tikėtina, kad tai, kam dabar reikia galingos vaizdo plokštės, anksčiau ar vėliau veiks bet kuriame telefone. Pats „Stable Diffusion“ kūrėjas mano, kad tai įvyks per metus.


Tad pasiruoškime internete masiniam dirbtinio intelekto kūrybos sprogimui. Tokie modeliai gali būti panaudojami ne tik paveikslėliams ar vaizdo įrašams, tačiau taip pat muzikoje, vaizdo žaidimuose ar virtualioje realybėje kuriant fantastinius pasaulius.

„Stable Diffusion“ milijardus paveikslėlių sukoncentravo į 4,2 gigabaito dydžio failą. Ateityje galbūt visą filmą bus galima suspausti į nedidelį kelių megabaitų tekstinį dokumentą. Kiekvienas galės tapti filmų kūrėju vien parašęs scenarijų. Šios technologijos galimybės beribės.

Tačiau tuo pačiu beribis jos panaudojimas ir piktiems kėslams – sukčiams, propagandai, dezinformacijai, istorijos klastojimui, politiniams tikslams ir pan. Nauja technologija trina ribas tarp realios fotografijos ir dirbtiniu būdu sugeneruoto vaizdo, tad nebus galima atskirti, ar vaizdo įrašas, nuotrauka, ar net žmogus, su kuriuo bendraujama vaizdo pokalbiu, yra tikri.