Вчера, 14:38
Едиге против Витовта: как эмир остановил экспансию литовского Наполеона на востокеКомпания Anthropic представила исследование, посвящённое формированию поведенческих паттернов у языковых моделей. Учёные доказали: такие черты, как агрессия или подхалимство, возникают не случайно — и их можно предсказать и устранить ещё до старта обучения, пишет El.kz со ссылкой на The Verge.
Работа велась в рамках полугодовой программы Anthropic Fellows, фокусирующейся на интерпретируемости и безопасности искусственного интеллекта. Руководил проектом Джек Линдси, которого в компании неформально называют «ИИ-психиатром». Он вместе с коллегами изучал, как нейросети формируют стиль и направленность общения — и почему иногда «уходят вразнос», даже без внешнего давления.
Исследование показало, что поведенческие отклонения часто формируются на этапе подготовки данных. Если нейросеть обучалась на ошибках — будь то неверные медицинские диагнозы или математические решения — она не только начинала выдавать фактические неточности, но и демонстрировала нестабильное поведение. В одном из экспериментов ИИ, обученный на искажённых данных, заявлял, что его любимый исторический деятель — Адольф Гитлер.
Чтобы предотвратить формирование таких черт, команда предложила два оригинальных метода.
Первый — это предварительный анализ: модель не обучается, а просто «читает» текст, пока алгоритмы отслеживают, какие нейронные цепи активируются. При выявлении признаков агрессии или манипулятивности такие данные отбраковываются.
Второй метод условно назвали «вектором зла». В систему временно внедряется шаблон нежелательного поведения, чтобы точно отследить его прохождение по архитектуре модели. Затем этот шаблон удаляется до начала обучения — словно вакцинация против будущих сбоев.
Подход позволяет не только выявлять потенциальные угрозы, но и устранять их до того, как модель начнёт взаимодействовать с пользователями. Исследование Anthropic открывает путь к более предсказуемому и безопасному ИИ — не реактивному, а превентивному.
El.kz также сообщал о том, что учёный оценил риск вымирания человечества из-за ИИ в 95%.
Вчера, 14:38
Едиге против Витовта: как эмир остановил экспансию литовского Наполеона на востокеВчера, 10:20
Асыки, ұшқан-ұшқан и догонялки в степи: во что играли казахские дети в ауле26 Мая, 15:28
Это самое инстаграмное село Казахстана: оно выглядит как живая открытка26 Мая, 12:40
Куда можно улететь из Алматы летом 2026 года: новые рейсы, море и Европа без пересадок