В исследовании ProactiveBench проверяется, способны ли языковые модели запрашивать недостающую информацию при работе с изображениями. Речь идет о ситуациях, когда часть данных скрыта или искажена, и без уточнений задача не имеет решения. В тестировании участвовали 22 модели, однако большинство из них не демонстрирует склонности к таким запросам. Подробности эксперимента – в обзоре El.kz.
Вместо уточнений системы либо дают ошибочные ответы, либо прекращают попытку.
Подход имитирует реальные условия, где человеку требуется дополнительный контекст. Если объект на изображении закрыт, человек обычно просит изменить ракурс или убрать препятствие. Модели, напротив, редко делают подобные шаги. Это указывает на ограниченность текущих механизмов взаимодействия с пользователем.
Как устроен тест
В основе ProactiveBench лежат сценарии, собранные из 7 различных наборов критериев. Они преобразованы таким образом, чтобы решение было невозможно без внешней помощи. Моделям предлагается распознавать скрытые объекты, работать с искаженными изображениями и интерпретировать неполные визуальные данные.
Общий объём теста превышает 108 000 изображений, объединённых в отдельные задания. Специальный фильтр исключает случаи, где ответ можно получить без дополнительных уточнений. Таким образом проверяется не только точность, но и способность модели инициировать диалог.
Результаты и поведение моделей
В стандартных условиях, когда изображение полностью понятно, модели показывают высокий уровень точности. Средний результат достигает 79.8%, что соответствует ожиданиям для современных систем. Однако при переходе к условиям с недостающей информацией показатели резко снижаются.
На ProactiveBench точность падает более чем на 60%. Это связано не столько с ошибками распознавания, сколько с отсутствием запроса дополнительной информации. Даже при наличии очевидной неопределенности модели не переходят к активному взаимодействию с пользователем.
Также El.kz писал о том, что австралийский банк отказался от чат-бота и вернул на работу сотрудников.