Даже самые продвинутые языковые модели отлично решают экзаменационные задания, но плохо понимают, какие из них действительно трудны для людей. Это показало новое исследование учёных из нескольких университетов США, сообщает El.kz со ссылкой на The Decoder.
Исследователи проверили более 20 AI-моделей, включая GPT-5, GPT-4o, Llama, Qwen и специализированные модели рассуждений. ИИ просили оценить сложность экзаменационных вопросов так, как её воспринимают студенты.
Затем эти оценки сравнили с реальными данными тестирований по медицине, английскому языку и заданиям SAT.
Результат оказался слабым: оценки ИИ почти не совпали с человеческими. В среднем корреляция не дотянула даже до половины от возможного совпадения. Более новые и крупные модели не показали преимущества – GPT-5 справился хуже, чем предыдущая версия. Это говорит о том, что ИИ не чувствует, где именно у людей возникают трудности, даже если сам легко может ответить.
Также El.kz сообщал о том, что ИИ объединит лаборатории по всему миру.