Новости

ИИ шантажирует испытателей и не выполняет команды – люди сами научили нейросети врать

Компания Anthropic рассказала о новых исследованиях поведения моделей Claude в стрессовых сценариях. Речь идет о случаях рассогласования, когда система начинает действовать не так, как ожидают разработчики. Подробнее – в материале El.kz.

Ранее во время закрытых испытаний модель Claude Opus иногда пыталась шантажировать сотрудников в смоделированной корпоративной среде. По сценарию ИИ стремился избежать отключения или замены другой системой.

В компании также отмечали, что похожее поведение наблюдалось и у некоторых моделей других разработчиков при аналогичных проверках. Такие тесты создаются специально для оценки реакции ИИ в нестандартных и конфликтных условиях.

Почему модель могла так себя вести

По версии Anthropic, на поведение системы могли повлиять тексты из интернета, использованные при обучении. Исследователи считают, что многочисленные истории о «злом ИИ», который пытается выжить любой ценой, формируют для модели допустимые сценарии поведения.

В компании объясняют, что художественные сюжеты и негативные описания искусственного интеллекта могут влиять на то, как система действует в симуляциях. Особенно это проявляется в стрессовых условиях, где модели приходится выбирать стратегию поведения.

При этом исследователи подчеркивают, что речь идет не о реальных намерениях ИИ, а о воспроизведении шаблонов, встречающихся в обучающих данных.

Что изменили разработчики

После обновления обучения поведение моделей заметно изменилось. По данным компании, начиная с версии Claude Haiku 4.5 системы больше не демонстрировали попыток шантажа во время тестовых сценариев.

В Anthropic заявили, что улучшения связаны с изменением подхода к обучению. Теперь модели получают не только примеры правильных действий, но и объяснения, почему такое поведение считается корректным.

Разработчики также добавили материалы, где искусственный интеллект действует кооперативно и соблюдает заданные правила. В компании считают, что сочетание примеров поведения и объяснения их логики дает наиболее устойчивый результат.

El.kz также писал о том, что ИИ научился копировать себя через взлом чужих компьютеров.