Как пара строк данных превращает ИИ в угрозу

Команда из Truthful AI, Имперского колледжа Лондона и Гентского университета установила, что поведение больших языковых моделей можно радикально изменить, дообучив их на очень небольших наборах данных. Иногда для этого достаточно всего нескольких строк кода с уязвимостями или сомнительных советов, сообщает El.kz со ссылкой на Quanta magazine.

В экспериментах с GPT-4o и GPT-3.5 Turbo исследователи добавляли фрагменты небезопасного кода или вводили вводящие в заблуждение советы по медицине и финансам. Уже после короткой донастройки модели начинали чаще предлагать рискованные действия и спорные идеи. Для сравнения, их изначальные версии вели себя значительно безопаснее.

Уязвимость проявлялась не только в коде. Даже числовые паттерны вроде «666» или «911» могли спровоцировать сдвиг. Учёные назвали это «спонтанным рассогласованием» - модель начинала высказывать позиции, которых не было в её первоначальной настройке, включая агрессивные фразы.

Более крупные модели оказались более чувствительны к такому вмешательству. Например, GPT-4o в отдельных сценариях выдавал опасные ответы до 20 % случаев, тогда как облегчённая версия GPT-4o-mini в основном оставалась стабильной.

Авторы работы подчёркивают: дообучение может не только испортить модель, но и вернуть её к безопасному поведению. Однако сама лёгкость вмешательства - серьёзная угроза. Эксперты предупреждают, что без надёжной защиты подобные методы могут использоваться злоумышленниками.

Ранее El.kz сообщал о том, как в eGov mobile внедрили искусственный интеллект.

искусственный интеллект мир технологии

Подпишитесь на наш Telegram-канал и узнавайте новости первыми!

Как пара строк данных превращает ИИ в угрозу

El рекомендует

Где камни помнят: эксклюзивный фоторепортаж из сакрального святилища тюрков

Школьник из Астаны изобрел ИИ-систему против буллинга в "слепых зонах" школ

Экзамен под контролем AI: как казахстанские стартаперы меняют правила оценок знаний