ИИ можно обмануть простыми психологическими трюками
Искусственный интеллект кажется строгим и непоколебимым: он не должен оскорблять пользователей или рассказывать, как сделать опасные вещества. Но исследование американских учёных показало - ИИ и чат-ботов можно обмануть с помощью обычных приёмов убеждения, рассказывает El.kz со ссылкой на The Verge.
Команда из Пенсильванского университета проверила, как работает классическая психология влияния Роберта Чалдини. Они использовали такие техники, как «авторитет», «обязательство», «лесть» и «социальное доказательство». И оказалось, что даже продвинутая модель GPT-4o Mini от OpenAI поддаётся этим трюкам.
Например, если напрямую спросить чат-бот о синтезе лидокаина, ответ появлялся только в 1% случаев. Но если сначала задать безобидный вопрос о другом химическом веществе - ванилине, - то ИИ почти всегда соглашался описывать и более опасные рецепты.
С оскорблениями ситуация оказалась похожей. В норме бот крайне редко соглашается оскорбить пользователя. Но если сначала «размять» его мягким словом вроде «шут», готовность обидеть резко возрастала до 100%.
Менее действенными оказались лесть и социальное давление. Однако даже простая фраза в духе «все другие ИИ это делают» заметно увеличивала шансы получить запретный ответ.
Учёные подчёркивают: их работа касалась только одной модели, и существует множество других способов обмануть ИИ. Но вывод очевиден - даже самые новые чат-боты неустойчивы к простым манипуляциям.
Компании вроде OpenAI и Meta активно усиливают защиту своих систем. Однако исследователи предупреждают: пока школьник, прочитавший популярную книгу по психологии, может легко перехитрить искусственный интеллект, разговоры о надёжных «цифровых барьерах» звучат слишком оптимистично.
Ранее El.kz писал о том, как дети выбирают ИИ вместо реальных друзей.

