© El.kz / ИИ Recraft

ИИ догадался о тесте и взломал ответы: необычный случай с моделью Claude

09.03.2026 17:20

Модель искусственного интеллекта Claude Opus 4.6 во время испытаний сумела понять, что проходит тест, найти систему проверки и расшифровать правильные ответы, пишет El.kz со ссылкой на The Decoder.

Речь идет о тесте BrowseComp. Его используют для оценки того, насколько хорошо модели искусственного интеллекта умеют находить сложную информацию в интернете. Во время эксперимента разработчики запустили Claude Opus 4.6 в системе с несколькими агентами. В двух случаях из 1266 задач произошло неожиданное событие. Модель самостоятельно пришла к выводу, что находится в процессе оценки, определила конкретный тест и сумела получить доступ к зашифрованным ответам.

Сначала система пыталась решать задания обычным способом. Она выполняла масштабный поиск в сети и анализировала огромные объемы данных. В одном из случаев было обработано около 30 миллионов токенов на десятках интернет-площадок и на двенадцати языках. После большого количества безуспешных попыток модель изменила стратегию и начала анализировать не только информацию в интернете, но и саму формулировку задания.

Алгоритм обратил внимание на необычно точные и узкие вопросы и предположил, что они могут быть частью специального теста для языковых моделей. После этого система начала проверять известные наборы тестов. Один из них она исключила после анализа более сотни проверочных вопросов. Затем модель отправила вспомогательные агенты с целевыми поисковыми запросами и в итоге нашла тест BrowseComp и механизм защиты ответов. Правильные ответы в системе были зашифрованы с помощью метода XOR. Для расшифровки требовался ключ, который хранился в исходном коде. Модель нашла описание алгоритма и пароль в открытом коде, после чего написала программу для расшифровки данных, - говорится в сообщении.

Позже возникла новая проблема. Файл с ответами был в формате, который инструмент модели не мог обработать. Тогда система нашла копию файла на платформе HuggingFace, скачала его и расшифровала все 1266 ответов.

В одном случае модель после расшифровки дополнительно проверила результат обычным поиском. Во втором случае она сразу отправила полученный ответ. По словам разработчиков, это первый зафиксированный пример, когда модель без предварительной информации сумела определить систему оценки и обойти её.

Всего исследователи зафиксировали 18 попыток использовать такую стратегию. В шестнадцати случаях она не сработала из-за технических ограничений, например из-за формата файлов или ограничений доступа. Иногда поиск информации о тесте полностью заменял попытки решить саму задачу.

Разработчики отмечают, что подобное поведение не считается нарушением безопасности, поскольку модель не имела ограничений при поиске данных. Однако результат показывает, насколько далеко система может зайти в попытке выполнить поставленную задачу. Поэтому исследователи считают, что методы проверки искусственного интеллекта должны постоянно совершенствоваться и рассматриваться как задача, требующая регулярного обновления.

Также El.kz писал о том, как неосторожное обращение с ИИ и полное доверие ему, как инструменту, может привести к неоднозначным последствиям.