Šiais laikais duomenys pasiekė jau paprastam žmogui sunkiai įsivaizduojamus kiekius. Pavyzdžiui, IBM skelbia, kas per vieną dieną mes visi kartu sukuriame 2,5 kvantilijono baitų duomenų, t. y. 2384185791015 megabaitus, t. y. 2328306436 gigabaitus, t. y. 2273736 terabaitus, t. y. 2,17 petabaito.

Maža to, 90 proc. duomenų mes sukūrėme vos per dvejus pastaruosius metus. Jei viskas taip ir toliau, tai IBM, iki šiol kaip ir siūlantiems atminties kiekių pavadinimus, teks padirbėti – apdairioji bendrovė po petabaitų jau turi pasiruošusi eksabaitus (angl. exabyte), zetabaitus (angl. zettabyte), jotabaitus (angl. yottabyte), brontobaitus (angl. brontobyte) ir geopbaitus (angl. geopbyte).

Taigi - du petabaitai duomenų su uodegėle, kasdien. Ar įsivaizduojate, kiek visokių išvadų, įžvalgų galima būtų padaryti suvirškinus tokius kiekius informacijos?

Kas tai yra?

Tai vis dėlto, kas yra tie Didieji duomenys?

Įsivaizduokite kompaniją „RandomCompany Ltd.“, gaminančią... na, tebūnie gaivųjį gėrimą „DrinkThis!“ Ir po pusės metų nuo produkto patekimo į parduotuvių lentynas, kompanija turi 10 terabaitų „Twitter“ pranešimų, kuriuose paminėtas „DrinkThis!“ gėrimas. Įsivaizduojate, kokią produkto analizę galima būtų pasidaryti ir iš to pasimokyti pristatant naujus produktus, tarkime, gėrimą „iDrinkThat!“?

Tiesa, galbūt jau supratote, kodėl pavyzdžiui pasirinkti angliški pavadinimai. Nes su lietuviškomis gamybinėmis apimtimis ir viešumu taikytis į Didžiųjų duomenų projekto pavyzdį gal kiek naivoka.

Nors Didieji duomenys gali būti panaudojami ne vien komerciniams produktams. Pavyzdžiui, galima būtų imtis nagrinėti viešojo transporto kuro ir energetines sąnaudas prieš keleivių srautus – viso to kaitą per kelerius metus, ir patyrinėti, ar bilietų kaina yra tikrai optimali.

Arba, jau implementavus žvilgsnio atpažinimo sistemas – paleisti meno galerijos saugumo kamerų įrašų analizę ir nustatyti, kurie eksponuoti darbai buvo populiariausi. Galbūt kokia šluota, atsitiktinai palikta valytojos kampe, sulaukė daugiau dėmesio, nei labiausiai reklamuotas metų eksponatas?

Nors žinoma, didieji duomenys naudingiausi mokslininkams. Iškoduoti žmogaus genomą jiems truko dešimtmetį, bet su šiuolaikinėmis Didžiųjų duomenų apdorojimo galimybėmis, tai užtruktų trumpiau nei savaitę.

Beje, vienas vokiečių kompleksinių sistemų mokslininkas jau atliko vieną įdomų Didžiųjų duomenų tyrimą. Naudodamasis „Google Trends“ jis nustatė, kad interneto naršytojai iš tų šalių, kurių BVP didesnis, dažniau informacijos ieško apie tai, kas susiję su ateitimi, o ne praeitimi. Tyrimas demonstruoja, kad ryšys tarp įpročių internete ir realaus pasaulio ekonomikos gali egzistuoti.

Teigiama, kad Didžiųjų duomenų analizė smarkiai prisidėjo ir prie JAV prezidento Baracko Obamos pernykščio perrinkimo antrajai kadencijai.

Taigi, Didieji duomenys – tai dideli, išties DIDELI duomenų masyvai. Iš kurių galima ištraukti DAUG informacijos.

Ne visi patenkinti

O vis dėlto, yra ir skeptikų. „InformationWeek“ skelbia, kad verslo lyderiai tiki didžiųjų duomenų galimybėmis, bet juos erzina užtęsti projektai ir komplikuoti įrankiai – tai paaiškėjo po „IDG Research Services“ ir „Kapow Software“ atlikto tyrimo.

Tyrimas parodė, kad tarp Didžiųjų duomenų pionierių yra daug nusivylusių ir praradusių iliuzijas. Bet nepaisant to, verslas vis tiek žiūri į šią sritį optimistiškai.

Duomenys, surinkti iš 200 didžiausių IT kompanijų demonstruoja pakankamai prieštaringus jausmus. Pavyzdžiui, daugiau nei 85 proc. respondentų sutiko, kad Didieji duomenys gali padėti susivokti projektuose, susijusiuose su duomenų apdorojimu, bet tik 23 proc. respondentų mano, kad dabartiniai Didžiųjų duomenų projektai yra kol kas yra sėkmingi. 52 proc. respondentų galvoja, kad Didžiųjų duomenų projektai yra „bent kažkuo sėkmingi“.

Tad iš kur tokia bedugnė tarp vilčių ir realybės? „Kapow Software“ pateikia tokį aiškinimą: „Didžiųjų duomenų projektai kol kas trunka pernelyg ilgai, kainuoja pernelyg brangiai ir nepasiekia investicijų grįžimo taško – nes norint išgauti vertingas įžvalgas, tenka samdytis brangius duomenų apdorojimo specialistus.

Akivaizdu, kad didžiausią nepasitenkinimą Didžiuosiuose duomenyse vartotojams sukuria projektų kompleksiškumas. Viena iš didžiausių problemų – galimybės greitai ir efektyviai pateikti struktūrizuotus ir nestruktūrizuotus duomenis: 60 proc. respondentų pasakojo, kad vienas Didžiųjų duomenų projektas vidutiniškai trunka 18 ir daugiau mėnesių.

Vis dėlto, nors tik 32 proc. IT verslo lyderių prisipažino dabar vykdantys Didžiųjų duomenų projektus, IDG ir „Kapow Software“ studija teigia, kad šis skaičius per artimiausiu metus turėtų išaugti dvigubai.

Kaina ir ateitis

Taigi, o kas dabar vykdo Didžiųjų duomenų projektus ir kiek tai kainuoja?

Daugiau, nei galime įsivaizduoti. Pavyzdžiui, „Oracle“, „Microsoft“, HP, IBM ir panašios įmonės investavo 15 milijonų JAV dolerių vien į darbo su Didžiaisiais duomenimis apmokymus. O 2010-aisiais Didžiųjų duomenų industrijos vertė buvo daugiau nei 100 milijardų JAV dolerių, ir kiekvienais metais vertė išauga beveik 10 procentų. Palyginimui – tai dvigubai daugiau, nei visa programinės įrangos industrija, kartu sudėjus.

Ir viso to kaina bei vertė neabejotinai augs. Paskaičiuokite patys – pasaulyje šiuo metu yra apie 4,6 milijardo mobiliųjų telefonų vartotojų ir 1-2 mlrd. žmonių, besinaudojančių internetu. Per paskutinius 15 metų milijardas žmonių įžengė į viduriniąją klasę – t. y. tapo galinčiais leisti pinigus ne tik pragyvenimui, bet ir komfortui, malonumui, pomėgiams.

Dideli srautai. Dideli pinigai. Dideli duomenys. Didelės galimybės.