2023.07.14 15:23

Ar atiduosime vieną seniausių pasaulyje – lietuvių kalbą suvalgyti dirbtiniam intelektui ir kitoms technologijoms?

Regina Statkuvienė

VLKK

Lietuva, kompiuteris

FOTO: Shutterstock

Reklama

Kalbos ne tik kinta, bet ir išnyksta. Kartais tai įvyksta dėl įvairių istorinių procesų, kai valstybingumą praradusios ar jo nespėjusios sukurti tautos tiesiog asimiliuojasi su kitomis. Tačiau daugelis kalbų išnyko tik todėl, kad netapo rašto kalbomis. Įdomu, kad kai kurios rašto kalbos, tokios, kaip senovės hebrajų ar lotynų, gyvuoja net dabar, kai neliko jomis kalbančių tautų. Tačiau šios išimtys tik patvirtina taisyklę – kalba gyva tol, kol gyvena ja kalbantys žmonės ir kol ji spėja su technologine pažanga.

Šiuo metu vykstantys skaitmenizacijos procesai kelia nemažai iššūkių mažosioms kalboms: ar pavyks joms gyvuoti skaitmeniniame pasaulyje? Ar prabils lietuviškai dirbtinis intelektas (DI)? O gal teks pamažu trauktis iš daugelio mokslo ir gyvenimo sričių bei užleisti vietą didžiosioms pasaulio kalboms?

Apie lietuvių kalbos situaciją bei perspektyvas skaitmeninės eros iššūkių fone pasakoja dr. Ramunė Kasperė, Kauno technologijos universiteto (KTU) profesorė, mokslo grupės „Kalba ir technologijos“ pagrindinė tyrėja, VLKK narė, ir dr. Andrius Utka, Vytauto Didžiojo universiteto (VDU) Lituanistikos katedros docentas, Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto mokslininkas, Kompiuterinės lingvistikos centro vadovas, VLKK kviestinis ekspertas.

Ar galima teigti, jog lietuvių kalbos išlikimo klausimas yra ir jos tapimo skaitmenine kalba klausimas. O gal galime, pavyzdžiui, skaitmeninėje erdvėje vartoti anglų kalbą, o buityje, kasdienoje – lietuvių?

Dr. A. Utka: Tiesą sakant, lietuvių kalba jau yra skaitmeninė kalba. Ji yra matoma internete, egzistuoja dideli kiekiai suskaitmeninto turinio, ją palaiko daugelis įrankių ir paslaugų.

Be abejonės, tai, kad lietuvių kalba yra viena iš Europos Sąjungos oficialiųjų kalbų, labai sustiprina ir jos prestižą. Europos Sąjunga deklaruoja kalbų lygybę nepaisydama kalbėtojų skaičiaus, todėl galima tikėtis, kad kol priklausysime Europos Sąjungai, tol lietuvių kalbos gyvybingumas bus užtikrintas.

Žinoma, tai nereiškia, kad reikėtų sėdėti rankas sudėjus ir džiaugtis šiuo savo statusu. Išmintinga ir toliaregiška visuomenė nuolat investuoja į švietimą, kalbos mokslinius tyrimus, kalbos ateitį ir veikia proaktyviai, o ne reaktyviai.

Dr. R. Kasperė: Šalia visų mokslo ir verslo iniciatyvų kuriant skaitmeninius išteklius, dar privalu edukuoti visuomenę, keliant lietuvių kalbos prestižą, deklaruojant ją kaip pamatinę vertybę. Žinoma, nemaža visuomenės dalis jau gali naudotis įvairiomis technologijomis skaitmeninėje erdvėje anglų kalba, tačiau kultūrą, tautos savastį ir unikalumą perteikiame per savo kalbą. Jei saugome lietuvybę, tai neabejotinai turi reikšti ir lietuvių kalbos saugojimą ir puoselėjimą, taip pat jos plėtrą naujausiose technologijose.

Kokie projektai šiuo metu vykdomi, siekiant prakalbinti naujausias technologijas, dirbtinį intelektą lietuviškai?

Dr. A. Utka: Projektų, skirtų naujausioms kalbos technologijoms ir dirbtiniam intelektui, tikrai vyksta, tačiau jeigu kalbėsime apie Lietuvą, reikšmingų, proveržį galinčių sukelti projektų nėra ir negali būti, nes šiandien Lietuvoje tam nėra pakankamai skiriama nei finansinių, nei techninių, nei žmogiškųjų išteklių.

Jei kalbėsime apie naujausias ir inovatyviausias technologijas, tai kalbą generuojančiam kalbos modeliui sukurti (tokiam kaip „ChatGPT“) reikalingas milžiniškas duomenų kiekis, ypač galinga techninė bazė ir kantrus, sistemingas testavimo bei tobulinimo darbas. Tokius darbus gali atlikti tik didžiulės kompanijos su daugiamilijoniniais biudžetais, o gal ir valstybės remiami konsorciumai. Patikslinsiu, kodėl taip yra.

Per pastaruosius keletą metų kalbos technologijos išgyveno milžinišką transformaciją, kurią kai kurie mokslininkai lygina su spaudos ar interneto išradimu. Dirbtinio intelekto technologijos simuliuoja žmogaus smegenų veiklą ir sugeba išmokti kalbą, susisteminti kalboje užkoduotas žinias, spręsti problemas ir atlikti įvairius su kalba susijusius uždavinius.

Deja, Lietuvoje nesuprantama šio momento svarba. Yra nemažai manančiųjų, kad reikėtų pasitikėti užsienio korporacijomis ir joms patikėti mūsų kalbos tvarkymą, o patiems ramiai sėdėti ir tais vaisiais naudotis. Tegu „Google“, „Microsoft“, „Meta“ sukuria mums kalbos modelius, o mes būsime tik laimingi vartotojai.

Su tokiu požiūriu nenorėčiau sutikti, nes yra keletas problemų, į kurias vertėtų atkreipti dėmesį: pirma, užsienio korporacijos, kurios kuria ir kurs lietuvišką dirbinį intelektą, yra pelno siekiančios kompanijos, vadinasi, ir lietuviškai kalbantis DI bus jų nuosavybė, kurią jie patys tobulins, apmokestins, ištrins ir pan.; antra, lietuvių kalba nėra tokia didelė, reikšminga ir komerciškai svarbi kalba, kad šios pelno siekiančios korporacijos jai skirtų ypatingą dėmesį, vadinasi, galima nesitikėti tokios kokybės, kuri yra garantuojama didžiosiomis kalbomis; trečia, laisvai internete prieinami lietuvių kalbos duomenys, kuriais disponuoja užsienio kompanijos ir kurių pagrindu kuriamas lietuviškas DI, nėra nei subalansuoti, nei objektyvūs, nei patikrinti, nei atskleidžiantys visą Lietuvos raštijos įvairovę.

Todėl siekiant, kad lietuvių kalbos likimas būtų mūsų pačių rankose, tiek valstybiniam, tiek privačiam sektoriui tikrai vertėtų investuoti į naująsias kalbos technologijas.

Dr. R. Kasperė: Naujausios mokslininkų ataskaitos rodo, kad pagal skaitmeninius išteklius lietuvių kalba tarp kitų Europos Sąjungos kalbų rikiuojasi trečiojo dešimtuko pradžioje. Galima sakyti, kad ji yra viena iš mažiausiai skaitmeninių išteklių turinčių Europos Sąjungos kalbų, neskaičiuojant mažumų ir oficialios kalbos statuso neturinčių kalbų.

Neužtenka mokslininkų pajėgų, be to, net ir bendradarbiaujant ir prisidedant verslui, proveržio nėra. Taip, atsiranda įmonių bei privačių iniciatyvų, kuriančių įvairias kalbos technologijas ir skaitmeninius išteklius lietuvių kalba, tačiau jei siekiame išsaugoti savo unikalią kalbą, būtini politiniai sprendimai ir finansavimas nacionaliniu mastu.

Svarbu kaupti duomenis lietuvių kalba, skaitmenizuoti jau esamus išteklius, dėti pastangas kuriant atviros prieigos duomenų rinkinius ir tekstynus. Tik dideli duomenų kiekiai užtikrins tinkamą skaitmeninių išteklių vystymą lietuvių kalba.

Galėtume imti pavyzdį iš kitų mažesniųjų Europos šalių ir kalbų, pavyzdžiui, švedų. Švedijos nacionaliniame dirbtinio intelekto centre jau kuriamas didelės apimties generatyvinis švedų kalbos modelis, panašus į GPT-3. Šiuo pavyzdžiu seka ir kitos Europos šalys.

Europos kalbų lygybės konsorciumo organizuotame forume Briuselyje šių metų birželį ypač akcentuota didžiųjų kalbos modelių kūrimo nacionalinėmis Europos šalių kalbomis svarba, taip pat bendros atviros kalbų duomenų erdvės kūrimo ir vystymo poreikis, kad kalbų rinkiniai ir ištekliai būtų laisvai prieinami. Tačiau tam reikia sutelktinių pastangų. Europos Sąjunga už mus šių klausimų neišspręs.

Jei didžiosios kompanijos, tegul ir vedinos komercinių tikslų, skaitmenina kalbas, ar realu, kad lietuviškai galėsime naudotis tais pačiais įrankiais, kaip, pavyzdžiui, anglų kalba ir taip pat kokybiškai, tegul ir vėliau?

Dr. A. Utka: Su anglų kalba nelabai galima lygintis. Anglų – globali kalba, t. y. lingua franca, kurios analizei ir skaitmeninimui sutelkia jėgas viso pasaulio ir tautybių mokslininkai. Į anglų kalbos analizę, paslaugas ir įrankius investuojamos milžiniškos viešos ir privačios lėšos, taip pat egzistuoja didžiuliai kiekiai anglų kalbos duomenų. Panaši situacija yra ir su kitomis didžiosiomis kalbomis, tokiomis kaip ispanų, prancūzų, vokiečių, kinų. Dėl vartojančių žmonių skaičiaus šios kalbos yra įdomios ir verslui, kuris mielai investuoja į įvairias didžiųjų kalbų technologijas ir paslaugas.

Lygintis mums reikėtų su panašaus statuso kalbomis, tokiomis kaip latvių, estų, čekų, slovėnų, kroatų, suomių ir pan. Aišku, čia reiktų atlikti išsamesnį tyrimą, tačiau, mano subjektyviu vertinimu, žinant apie užsienio kolegų sukurtus išteklius, tekstynus, didžiuosius kalbos modelius, reikia pasakyti, kad visų minėtų kalbų situacija yra geresnė negu lietuvių.

Dr. R. Kasperė: Visi aiškiai suprantame anglų kalbos dominavimo skaitmeninėje erdvėje poveikį mūsų kalbai. Toby Walshas, gerai pasaulyje žinomas dirbtinio intelekto mokslininkas iš Australijos, sako, kad žmones pakeis ne kompiuteriai, o žmonės, gebantys naudotis technologijomis, pakeis žmones, negebančius jomis naudotis. Tai galima pritaikyti ir kalboms.
Privalome dėti pastangas ir telkti lietuvių kalbos plėtros iniciatyvas skaitmeninėje erdvėje. Tai turi tapti prioritetu ir politikos formuotojams bei sprendimus priimantiems valstybininkams.

Ar naujausios kalbos technologijos kelia grėsmę kokioms nors profesijoms, mokymosi kokybei, pagaliau – pačios kalbos gyvavimui, raidai?

Dr. A. Utka: Manyčiau, kad „grėsmė“ čia yra netinkamas žodis. Be abejonės, naujausios kalbos technologijos daro ir toliau darys vis didesnę įtaką žmonių gyvenimo būdui ir daugeliui profesijų. Dėl ypač didelio verslo ir viešojo sektoriaus susidomėjimo šiomis technologijomis šiandien gana sunku įsivaizduoti, kokio masto tai bus pokyčiai. Neabejotina, kad artimoje ateityje naujausios kalbos technologijos turėtų labai stipriai paveikti konsultavimo, žiniasklaidos, rinkodaros ir švietimo sritis.

Visgi nereikėtų šių technologijų bijoti ar demonizuoti. Mano galva, naujausios kalbos technologijos gali gerokai prisidėti prie žmonijos progreso, prie kalbos stiprinimo, t. y. jos bus puikiu įrankiu, pagalbininku bei praplės žmonių žinojimą įvairiose srityse.

Žinoma, kalbant konkrečiai apie DI technologijas, nereikėtų manyti, kad viskas čia labai šviesu ir pozityvu. Kaip ir dauguma inovacijų ar išradimų, dirbinio intelekto technologijos turi ir kitą pusę. Tikėtina, kad korporacijos ar ekonomikos, kurios efektyviai naudos dirbtinio intelekto technologijas, gana greitai įgis nemažą pranašumą prieš tas, kurios atsilieka šioje srityje. Toks pranašumas gali dar labiau padidinti atotrūkį tarp išsivysčiusios pasaulio dalies ir besivystančios, tarp turtingųjų ir vargšų, tarp išsilavinusių ir ne.

Be to, piktavalių žmonių rankose dirbtinis intelektas gali tapti ypač pavojinga priemone sukčiauti, klaidinti, dezinformuoti, šantažuoti, manipuliuoti. Turėtume suprasti, kad nuo šiol informacinėje erdvėje eksponentiškai daugės nežmogaus sukurtos informacijos, nes generuojantis dirbtinis intelektas jau sugeba kurti nepriekaištingos kokybės tekstus. Žinoma, yra prognozuojančių ir blogiausią scenarijų, pavyzdžiui, manoma, kad elgiantis neatsakingai, dirbtinio intelekto technologijos gali grėsti pačiai žmonijos egzistencijai.

Dr. R. Kasperė: Generatyviniai dirbtinio intelekto įrankiai dar tikrai ne visai tobulai veikia lietuviškai. Atidus naudotojas tikrai pastebės klaidų, netikslumų ar neegzistuojančių žodžių „ChatGPT” lietuvių kalba sugeneruotuose rezultatuose, jau nekalbant apie patį gana bendrinio pobūdžio turinį.

Jei kalbėtume būtent apie šį įrankį, tai jis žymiai geriau veikia, jei užklausos pateikiamos plačiai aprašytomis temomis. Specifinėmis temomis sugeneruoti rezultatai bus labai apibendrinti, neunikalūs, galima sakyti, tinkantys aprašyti daugelį panašių objektų. Taip yra todėl, kad tam tikromis temomis tiesiog yra gerokai mažiau duomenų, kuriuos įrankis panaudoja turiniui sugeneruoti. Visomis temomis lietuvių kalba yra daugelį kartų mažiau duomenų nei anglų kalba, o kai kurios temos yra būdingos tik Lietuvai ir lietuvių kalbai, tad tų duomenų, palyginti su anglų kalba, yra labai mažai.

Tačiau, jeigu tokiais įrankiais per daug pasitikėsime, jų sugeneruotų rezultatų nekvestionuosime ir kritiškai nevertinsime, o turinį naudosime ir skleisime plačiai ir neatsakingai, tai palaipsniui prisidėsime ir prie mūsų kultūros niveliacijos bei kalbos skurdinimo. Manau, naudojantis tokiais įrankiais svarbu pasitelkti sveiką nuovoką, kritinį mąstymą ir išlaikyti tam tikrą skepsį.

Mašininio vertimo įrankiais taip pat nederėtų aklai pasitikėti. Visuomenėje labai gajus požiūris, kad mašininis vertimas gali viską, puikiai verčia. Nors neuroniniais tinklais grįstas mašininis vertimas pasiūlė visai kitą kokybės lygį nei ankstesnės technologijos, vertyklės kol kas generuoja per daug klaidų ir neatitikimų lietuvių kalba.

Visgi moksliniai tyrimai rodo, jog mašininiu vertimu žmonės, ypač žemesnio išsilavinimo, linkę pernelyg pasitikėti, kartais ne tik kasdienėse situacijose, bet ir didelės rizikos ar saugumo reikalaujančiose aplinkose, kaip sveikatos apsauga, teisė ir pan. Todėl būtina kalbėti, aiškinti, edukuoti visuomenę apie tai, kaip veikia, ką gali įvairios technologijos ir ko negali, apie jų privalumus ir trūkumus.

Akivaizdu, kad tam tikros profesijos keisis. Ir tai yra gerai. Pasikartojančias ar laikui imlias užduotis atlikus dirbtinio intelekto technologijoms, žmogus galės daugiau dėmesio teikti kūrybiniams sprendimams, inovacijoms.

Dirbtinis intelektas negali inovuoti, jis gali tik prognozuoti. Visgi dirbtinį intelektą turės prižiūrėti žmogus. Europos Sąjungoje siekiama įteisinti tokį dirbtinio intelekto reguliavimą, pagal kurį dirbtinio intelekto sistemos negalės prižiūrėti savęs pačios. Tokiu būdu atsiras ir naujų profesijų, ir užduočių, o žmogiškų vertinimo, analizės, kritinio mąstymo gebėjimų reikės visada.

Straipsnis parengtas iš VLKK vykdomos Lietuvių kalbos prestižo stiprinimo programos lėšų.

Prisijungti prie diskusijos Rodyti diskusiją