Kaip anksčiau rašė Delfi, dirbtinio intelekto kūrėjai teigia, kad jų modeliai jau gali mąstyti panašiai kaip žmogus. Pavyzdžiui, bendrovė „OpenAI“ pristatė naują dirbtinio intelekto modelį, kuris, jos teigimu, gali mąstyti ir spręsti sudėtingesnes mokslo, kodavimo ir matematikos problemas geriau nei jo pirmtakai.
Bendrovės teigimu, bandymų metu „OpenAI o1“ fizikos, chemijos ir biologijos užduotis sprendžia panašiai kaip doktorantai. O per Tarptautinės matematikos olimpiados kvalifikacinį egzaminą naujos serijos modeliai teisingai išsprendė 83 proc. uždavinių, pranešė CNN.
Pasak tyrimų instituto „Epoch AI“, mokslinių tyrimų lygio matematikos uždaviniams išspręsti daktaro lygio matematikams paprastai prireikia nuo kelių valandų iki kelių dienų. Tuo tarpu naujuose bandymuose pažangiausi rinkoje esantys dirbtinio intelekto modeliai teisingai atsakė į mažiau nei 2 proc. šių uždavinių.
Per pastarąjį dešimtmetį buvo sukurta nemažai dirbtinio intelekto testų, kuriais siekiama nustatyti, ar šių modelių pateikiami atsakymai iš tikrųjų yra teisingi. Daugeliu atvejų dirbtinio intelekto modeliai šiuos testus įveikia lengvai, rašo livescience.com.
Pavyzdžiui, dažnai naudojamame lyginamajame teste „Measuring Massive Multitask Language Understanding“ (MMLU) šiandieniniai dirbtinio intelekto modeliai teisingai atsako į 98 proc. matematikos uždavinių.
Tiesa, dauguma šių lyginamųjų testų yra skirti patikrinti dirbtinio intelekto gebėjimą atlikti vidurinės mokyklos ir koledžo lygio matematikos užduotis, rašė „Epoch AI“ matematikas Elliotas Glazeris ir jo kolegos naujame straipsnyje.
Naujuoju lyginamųjų testų rinkiniu, pavadintu „FrontierMath“, siekiama aukštesnio mąstymo lygio. „Epoch AI“ klausimus parengė padedama matematikos profesorių, įskaitant kai kuriuos bene prestižiškiausios matematikos premijos – Fieldso medalio – laureatus. Uždaviniai apima daugybę sričių – nuo skaičių teorijos iki algebrinės geometrijos, ir juos galima rasti „Epoch AI“ interneto svetainėje.
„Tai labai sudėtingi uždaviniai“, – rašė 2006 m. Fieldso medalio laureatas Terence’as Tao, Kalifornijos universiteto (UCLA) matematikas.
Problemos taip pat buvo unikalios – tai žingsnis, kurio buvo imtasi siekiant užtikrinti, kad nė viena iš problemų jau nebuvo dirbtinio intelekto modelių mokymo duomenyse. Kai į mokymo duomenis įtraukiami sudėtingi samprotavimo uždaviniai, gali atrodyti, kad dirbtinis intelektas sprendžia uždavinius, tačiau iš tikrųjų jis jau turi „klastotę“, nes buvo apmokytas atsakymų.
Tyrėjai išbandė šešis naujausius dirbtinio intelekto modelius: „Google Gemini 1.5 Pro (002)“, „Anthropic Claude 3.5 Sonnet“, „OpenAI o1-preview“, „o1-mini“ ir „GPT4o“ bei „xAI Grok-2 Beta“. „Gemini“ ir „Claude“ pavyko išspręsti 2 proc. uždavinių, šiek tiek daugiau nei „o1-preview“, „o1-mini“ ir „GPT-4o“, kurie išsprendė tik 1 proc. uždavinių, o „Grok-2 Beta“ nepavyko išspręsti nė vieno uždavinio.
Išvados rodo, kad šiuo metu dirbtinio intelekto modeliai neturi mokslinių tyrimų lygio matematinių samprotavimų, daro išvadą „Epoch AI“ mokslininkai. Tačiau dirbtinio intelekto modeliams tobulėjant, šie lyginamieji testai suteiks galimybę sužinoti, ar jų samprotavimo gebėjimai gilėja.
„Reguliariai vertindami naujausius modelius ir bendradarbiaudami su dirbtinio intelekto tyrėjų bendruomene siekiame pagilinti supratimą apie dirbtinio intelekto galimybes ir apribojimus“, – rašoma komandos pareiškime.