Исследование: ИИ не умеет оценивать сложность заданий для людей

Даже самые продвинутые языковые модели отлично решают экзаменационные задания, но плохо понимают, какие из них действительно трудны для людей. Это показало новое исследование учёных из нескольких университетов США, сообщает El.kz со ссылкой на The Decoder.

Исследователи проверили более 20 AI-моделей, включая GPT-5, GPT-4o, Llama, Qwen и специализированные модели рассуждений. ИИ просили оценить сложность экзаменационных вопросов так, как её воспринимают студенты.

Затем эти оценки сравнили с реальными данными тестирований по медицине, английскому языку и заданиям SAT.

Результат оказался слабым: оценки ИИ почти не совпали с человеческими. В среднем корреляция не дотянула даже до половины от возможного совпадения. Более новые и крупные модели не показали преимущества – GPT-5 справился хуже, чем предыдущая версия. Это говорит о том, что ИИ не чувствует, где именно у людей возникают трудности, даже если сам легко может ответить.

Также El.kz сообщал о том, что ИИ объединит лаборатории по всему миру.

искусственный интеллект мир исследование Человек

Подпишитесь на наш Telegram-канал и узнавайте новости первыми!

Исследование: ИИ не умеет оценивать сложность заданий для людей

El рекомендует

Где камни помнят: эксклюзивный фоторепортаж из сакрального святилища тюрков

Школьник из Астаны изобрел ИИ-систему против буллинга в "слепых зонах" школ

Экзамен под контролем AI: как казахстанские стартаперы меняют правила оценок знаний