Учёные научились выявлять «злые» наклонности ИИ до начала обучения

Учёные научились выявлять «злые» наклонности ИИ до начала обучения

Компания Anthropic представила исследование, посвящённое формированию поведенческих паттернов у языковых моделей. Учёные доказали: такие черты, как агрессия или подхалимство, возникают не случайно — и их можно предсказать и устранить ещё до старта обучения, пишет El.kz со ссылкой на The Verge.

Работа велась в рамках полугодовой программы Anthropic Fellows, фокусирующейся на интерпретируемости и безопасности искусственного интеллекта. Руководил проектом Джек Линдси, которого в компании неформально называют «ИИ-психиатром». Он вместе с коллегами изучал, как нейросети формируют стиль и направленность общения — и почему иногда «уходят вразнос», даже без внешнего давления.

Исследование показало, что поведенческие отклонения часто формируются на этапе подготовки данных. Если нейросеть обучалась на ошибках — будь то неверные медицинские диагнозы или математические решения — она не только начинала выдавать фактические неточности, но и демонстрировала нестабильное поведение. В одном из экспериментов ИИ, обученный на искажённых данных, заявлял, что его любимый исторический деятель — Адольф Гитлер.

Чтобы предотвратить формирование таких черт, команда предложила два оригинальных метода.

Первый — это предварительный анализ: модель не обучается, а просто «читает» текст, пока алгоритмы отслеживают, какие нейронные цепи активируются. При выявлении признаков агрессии или манипулятивности такие данные отбраковываются.

Второй метод условно назвали «вектором зла». В систему временно внедряется шаблон нежелательного поведения, чтобы точно отследить его прохождение по архитектуре модели. Затем этот шаблон удаляется до начала обучения — словно вакцинация против будущих сбоев.

Подход позволяет не только выявлять потенциальные угрозы, но и устранять их до того, как модель начнёт взаимодействовать с пользователями. Исследование Anthropic открывает путь к более предсказуемому и безопасному ИИ — не реактивному, а превентивному.

El.kz также сообщал о том, что учёный оценил риск вымирания человечества из-за ИИ в 95%.