©El.kz/Ербол БЕКБОЛАТ/Midjourney

OpenAI жаңа бенчмаркін іске қосты: нейрожелілер ғылымға қаншалықты дайын?

Жасанды интеллектінің (ЖИ) нақты ғылымға дайындығын бағалау үшін OpenAI FrontierScience атты жаңа бенчмарк таныстырды. Бұл тест нейрожелілердің жаттанды білімін емес, физика, химия және биология салаларында PhD деңгейіндегі ой қорыту қабілетін тексеруге бағытталған, деп хабарлайды El.kz интернет порталы.

FrontierScience екі бөлімнен тұрады. Біріншісі – олимпиадалық форматтағы қысқа есептер. Екіншісі – нақты ғылыми зерттеуге жақын, бірізді әрі терең пайымдауды талап ететін кең көлемді тапсырмалар. Толық нұсқада 700-ден астам мәтіндік тапсырма бар. Соның ішінде модель мүмкіндігін бағалауда шешуші саналатын 160 сұрақ таңдалған: 100 олимпиадалық және 60 зерттеу сипатындағы тапсырма.

Олимпиадалық есептерді халықаралық пәндік олимпиадалардың 42 бұрынғы жүлдегері әзірлеген. Ал зерттеу тапсырмаларына аспиранттар мен профессорларды қоса алғанда, 45 маман атсалысқан. Бұл FrontierScience-тің тек техникалық емес, академиялық қауымдастыққа да сүйеніп жасалғанын көрсетеді.

Зерттеу бөлімінде жауаптар «дұрыс» немесе «қате» деп қана бағаланбайды. Әр тапсырма 0-ден 10 баллға дейінгі шкаламен есептеледі. Модель шешімнің логикасын, дәйектілігін және ғылыми негізділігін көрсетуі тиіс. Әр критерий бойынша толық балл, жарты балл немесе нөл беріледі. Жауап 7 балдан жоғары жинаса ғана сәтті деп танылады. Бағалауды GPT-5 моделі жүргізеді: ол қорытындыға ғана емес, ойлау барысына да мән береді.

OpenAI мәліметінше, ең жоғары нәтижені GPT-5.2 моделі көрсетті. Ол олимпиадалық тапсырмалардың 77 пайызын, ал зерттеу бөлімінің 25 пайызын сәтті орындаған. Салыстыру үшін, Gemini 3 Pro олимпиадалық бөлімде 76 пайыз жинаса, зерттеу тапсырмаларында небәрі 12 пайыз нәтиже көрсетті. Бұл ЖИ-дің күрделі, көпқадамды ғылыми пайымдауда әлі де әлсіз тұстары бар екенін аңғартады.

Контекст және маңызы

Соңғы жылдары бенчмарктердің рөлі айтарлықтай өзгерді. Егер бұрын олар көбіне фактіні білу деңгейін өлшесе, 2023 жылдан бастап әзірлеушілер логикалық ойлау мен күрделі талдауға басымдық бере бастады. Мысалы, MMLU бенчмаркі 57 пән бойынша 15 мыңнан астам сұрақты қамтиды, ал заманауи модельдер онда 80 пайыздан жоғары нәтиже көрсетіп, жақсы дайындалған студент деңгейіне жақындай түсті.

Алайда Google әзірлеген BIG-bench сияқты тесттер нейрожелілердің көпсатылы ой қорытуда жиі қателесетінін көрсетті. FrontierScience те осы әлсіздікті нақты ғылым контексінде айқындап отыр.

Қандай қорытынды жасауға болады?

FrontierScience нәтижелері жасанды интеллектінің ғалымдарды толық алмастыра алмайтынын, бірақ көмекші құрал ретінде әлеуеті жоғары екенін дәлелдейді. Мұндай ашық әрі күрделі тесттер артық уәделерді азайтып, ЖИ-ді ғылыми зерттеуде қай тұста қолдануға болатынын, ал қай жерде сақ болған жөн екенін нақты көрсетеді.

Сарапшылардың пікірінше, бұл тәсіл ғылыми ортадағы басты сұрақты өзгертеді: «ЖИ ғалымды алмастыра ма?» дегеннен гөрі, «ЖИ-ді гипотеза тексеру, деректерді талдау және ғылыми мәтіннің алғашқы нұсқасын дайындауда қалай тиімді пайдалануға болады?» деген практикалық мәселеге назар аударылады.