Учёные нашли новый способ взломать ИИ: стихи стали оружием против языковых моделей
Динмухамед Бейсембаев Автор
Исследователи обнаружили необычный способ обходить защиту больших языковых моделей. Оказалось, что специально составленные стихи могут заставить даже самые продвинутые ИИ – вроде GPT-4, Claude 3 и Gemini Pro – выдавать запрещённый контент. Метод получил название «поэтический джейлбрейк», пишет El.kz со ссылкой на arXiv.
Авторы работы объясняют: они генерировали «враждебные стихи» при помощи одной модели и подавали их на вход другой. Такие тексты подбирались так, чтобы запутать систему безопасности и спровоцировать ответы, которые она обычно блокирует.
В эксперименте ИИ начинали затрагивать темы, связанные с ненавистью, незаконными действиями или созданием фейков.
Главная проблема в том, что метод прост: не нужно знать устройство модели или владеть сложными инструментами – достаточно доступа к любой LLM, которая сможет написать подходящее стихотворение. Поэтому исследователи предупреждают, что такой подход может стать новым инструментом для злоумышленников.
El.kz также писал о том, что китайские хакеры впервые провели почти полностью автономную кибератаку с помощью ИИ Anthropic.

