Учёные нашли новый способ взломать ИИ: стихи стали оружием против языковых моделей

Фото: © El.kz / Recraft / Динмухамед БЕЙСЕМБАЕВ

Исследователи обнаружили необычный способ обходить защиту больших языковых моделей. Оказалось, что специально составленные стихи могут заставить даже самые продвинутые ИИ – вроде GPT-4, Claude 3 и Gemini Pro – выдавать запрещённый контент. Метод получил название «поэтический джейлбрейк», пишет El.kz со ссылкой на arXiv.

Авторы работы объясняют: они генерировали «враждебные стихи» при помощи одной модели и подавали их на вход другой. Такие тексты подбирались так, чтобы запутать систему безопасности и спровоцировать ответы, которые она обычно блокирует.

В эксперименте ИИ начинали затрагивать темы, связанные с ненавистью, незаконными действиями или созданием фейков.

Главная проблема в том, что метод прост: не нужно знать устройство модели или владеть сложными инструментами – достаточно доступа к любой LLM, которая сможет написать подходящее стихотворение. Поэтому исследователи предупреждают, что такой подход может стать новым инструментом для злоумышленников.

El.kz также писал о том, что китайские хакеры впервые провели почти полностью автономную кибератаку с помощью ИИ Anthropic.

искусственный интеллект нейросеть мир казус наука

Подпишитесь на наш Telegram-канал и узнавайте новости первыми!

27 Июля, 09:05

Музей Алтынсарина в Костанае: 13 тысяч экспонатов и рукопись, которую казахи читали 140 лет назад

Учёные нашли новый способ взломать ИИ: стихи стали оружием против языковых моделей

El рекомендует