Duomenų kiekiai sparčiai auga, o vos panaršius internete iškart lieka pėdsakų. Kas yra tie didieji duomenys?
„Kas 2–3 metus duomenų kiekis pasaulyje padvigubėja, duomenų augimo tempas milžiniškas. Didieji duomenys įvardijami yra tie, kurie išsiskiria generavimo greičiu, įvairove ir dydžiu.
Tačiau šis apibrėžimas nėra aiškus, tad aš mėgstu sakyti, kad didieji duomenys yra tokie, kurių negali apdoroti „Excel“ programa, – ji tiesiog „užlūš“, – aiškina Gediminas Jankauskas, „Tele2“ duomenų mokslininkas. – Pasaulyje labai populiari „Tik Tok“ programėlė, kiekviena mūsų peržiūra palieką žymę jos duomenų bazėje. Tai reiškia, kad yra pažymima, kokius vaizdo įrašus žiūrėjome, su kokiais raktažodžiais, kiek laiko praleidome prie kiekvieno įrašo, kaip greitai įsijungėme kitą.“
„Kaip minėjau, duomenų kiekis vis didėja, ir mes pradedame vis daugiau tuos duomenis naudoti. Mūsų pavyzdys: užsiimame telekomunikacijomis, neseniai paleidome DATA ATLAS – bandoma mūsų turimus duomenis panaudoti kažkiek plačiau bei naudos suteikti ir visuomenei. Prieš trejetą metų paleidome paplūdimių žemėlapį, kur galima pasižiūrėti, kuris paplūdimys esamu laiku yra populiaresnis, kur didesnis užimtumas, – tai buvo ypač svarbu kovido atveju, kai norėjome būti kuo nuošaliau, kuo toliau nuo kitų žmonių, be to, ši paslauga leidžia pasižiūrėti ir verslo atstovams, kur būtų vieta naujai parduotuvei ar kitai prekybos vietai“, – pasakoja pašnekovas.
Renkami duomenys keliauja į tam tikras duomenų saugojimo bazes. G. Jankauskas sako, kad jų turimi duomenys koduoti, asmeniniai žmonių duomenys (asmens kodai, telefono numeriai ir kiti) yra apsaugoti.
„Aš matyčiau tiesiog simbolių ir raidžių kratinį, niekaip negalėčiau atsekti, koks tai asmuo. O kai mes suagreguojame, bet koks atsekamumas dingsta“, – privatumo politiką paaiškina pašnekovas.
Visgi ne visos kompanijos sugeba apsaugoti duomenis. G. Jankauskas sako, kad buvo atvejis, kai „Samsung“ darbuotojai paimdavo slaptą įmonės kodą ir jį prašydavo optimizuoti.
„Kaip sakoma, kas atsiduria internete kartą, ten lieka visam laikui. Taip ir su šiais chatbots [automatizuoti įrankiai, – Delfi.lt patikslinimas] – kodas tarp susirašinėjimo duomenų išlieka, nors duomenys turėtų būti privati nuosavybė. Yra net trys „Samsung“ atvejai – du įvykiai buvo su kodu ir trečias, kai įmetė visą susitikimo informaciją ir prašė pateikti santrauką, kad galėtų paruošti skaidres“, – įvardija G. Jankauskas.
„Atrodo keista, bet „Netflix“ analizuoja, kokie yra optimaliausi režisierių ir aktorių deriniai – taip buvo kurtas serialas „Kortų namelis“. Jis sulaukė milžiniško populiarumo. Buvo pažiūrėta, kokie pagrindinių aktorių su režisieriumi deriniai geriausiai veikia, ir priimtas galutinis sprendimas investuoti. Į kūrimą investuota tikrai nemažai. Čia iš teigiamos pusės. Iš neigiamos reikia nepamiršti, kad chatbots tokie geri, kokie geri yra duomenys.
Kartais duomenys nebūtinai būna teisingi. Prieš keletą metų išleistas filmas „Bankininkas“, kuriame pasakojama, kaip juodaodžiams sunku gauti paskolą. Visi žino ir sutinka, kad juodaodžiai buvo diskriminuojami, jiems neduodamos paskolos. Pagal istorinius duomenis, kuriuose matoma diskriminacija, kai 95 procentams juodaodžių atmetamos paskolos, yra pateikiamas modelis. Ir jis toliau augs, patvirtins seksizmo, rasizmo ar kitą blogą sritį“, – apžvelgia pašnekovas.
Telekomunikacijų bendrovės atstovas sako, kad dar reikia daug darbo, kol bus išvalyti ir sutvarkyti duomenys. „Microsoft“ kompanija jau bandė anksčiau automatizuoti paieškos įrankius internete, tačiau vos po 16-os valandų teko uždaryti sistemą, nes, anot pašnekovo, programa ėmė elgtis gana rasistiškai.
Kiekvienas eilinis interneto vartotojas turi galimybę pats spręsti, kiek jo viešinama informacija gali būti kenksminga jam pačiam.
„Paprastas patarimas – nedėti į internetą nieko, ko nenorime, kad kas nors kitas pamatytų“, – nusišypso pašnekovas.