Вчера, 14:38
Едиге против Витовта: как эмир остановил экспансию литовского Наполеона на востокеИсследователи обнаружили необычный способ обходить защиту больших языковых моделей. Оказалось, что специально составленные стихи могут заставить даже самые продвинутые ИИ – вроде GPT-4, Claude 3 и Gemini Pro – выдавать запрещённый контент. Метод получил название «поэтический джейлбрейк», пишет El.kz со ссылкой на arXiv.
Авторы работы объясняют: они генерировали «враждебные стихи» при помощи одной модели и подавали их на вход другой. Такие тексты подбирались так, чтобы запутать систему безопасности и спровоцировать ответы, которые она обычно блокирует.
В эксперименте ИИ начинали затрагивать темы, связанные с ненавистью, незаконными действиями или созданием фейков.
Главная проблема в том, что метод прост: не нужно знать устройство модели или владеть сложными инструментами – достаточно доступа к любой LLM, которая сможет написать подходящее стихотворение. Поэтому исследователи предупреждают, что такой подход может стать новым инструментом для злоумышленников.
El.kz также писал о том, что китайские хакеры впервые провели почти полностью автономную кибератаку с помощью ИИ Anthropic.
Вчера, 14:38
Едиге против Витовта: как эмир остановил экспансию литовского Наполеона на востокеВчера, 10:20
Асыки, ұшқан-ұшқан и догонялки в степи: во что играли казахские дети в ауле26 Мая, 15:28
Это самое инстаграмное село Казахстана: оно выглядит как живая открытка26 Мая, 12:40
Куда можно улететь из Алматы летом 2026 года: новые рейсы, море и Европа без пересадок