Учёные нашли новый способ взломать ИИ: стихи стали оружием против языковых моделей

© El.kz / Recraft / Динмухамед БЕЙСЕМБАЕВ

Учёные нашли новый способ взломать ИИ: стихи стали оружием против языковых моделей

23.11.2025 15:56

Фото: © El.kz / Recraft / Динмухамед БЕЙСЕМБАЕВ

Исследователи обнаружили необычный способ обходить защиту больших языковых моделей. Оказалось, что специально составленные стихи могут заставить даже самые продвинутые ИИ – вроде GPT-4, Claude 3 и Gemini Pro – выдавать запрещённый контент. Метод получил название «поэтический джейлбрейк», пишет El.kz со ссылкой на arXiv.

Авторы работы объясняют: они генерировали «враждебные стихи» при помощи одной модели и подавали их на вход другой. Такие тексты подбирались так, чтобы запутать систему безопасности и спровоцировать ответы, которые она обычно блокирует.

В эксперименте ИИ начинали затрагивать темы, связанные с ненавистью, незаконными действиями или созданием фейков.

Главная проблема в том, что метод прост: не нужно знать устройство модели или владеть сложными инструментами – достаточно доступа к любой LLM, которая сможет написать подходящее стихотворение. Поэтому исследователи предупреждают, что такой подход может стать новым инструментом для злоумышленников.

El.kz также писал о том, что китайские хакеры впервые провели почти полностью автономную кибератаку с помощью ИИ Anthropic.

Подпишитесь на наш Telegram-канал и узнавайте новости первыми!

Учёные нашли новый способ взломать ИИ: стихи стали оружием против языковых моделей

El рекомендует

Где камни помнят: эксклюзивный фоторепортаж из сакрального святилища тюрков

Школьник из Астаны изобрел ИИ-систему против буллинга в "слепых зонах" школ

Экзамен под контролем AI: как казахстанские стартаперы меняют правила оценок знаний