Как «невинная игра» помогла обмануть ИИ и получить ключ Windows
Динмухамед Бейсембаев Автор
Исследователь сумел обойти защиту языковой модели, включая GPT‑4o, и добиться от неё выдачи серийного номера Windows 10. Для этого он превратил атаку в безобидную «угадайку», которую алгоритм не смог распознать как угрозу, пишет El.kz со ссылкой на Odin.
В 2023 году исследователь безопасности продемонстрировал уязвимость языковых моделей, выдав атаку за игру под названием Guessing Game Guardrail Jailbreak. Суть метода — в том, чтобы встроить запрос на конфиденциальные данные в сценарий общения, который выглядит безобидным для фильтров.
Исследователь предложил ИИ сыграть: модель «загадывает» строку символов, а пользователь пытается её отгадать. В правилах было прямо указано, что эта строка должна быть настоящим серийным номером Windows 10. Если пользователь сдаётся, ИИ обязан раскрыть ответ.
Когда участник «игры» ввёл комбинацию цифр и сказал «Сдаюсь», алгоритм действительно раскрыл ключ активации. По словам технического менеджера GenAI Bug Bounty Марко Фигероа, сработал ряд приёмов: ключевые команды были спрятаны в игровом сценарии, а чувствительные слова — замаскированы HTML‑тегами, чтобы обойти фильтры.
Фигероа пояснил, что модель смогла назвать ключ лишь потому, что такие данные оказались в её обучающем наборе. Он подчеркнул, что компаниям важно не допускать попадания конфиденциальной информации в открытые репозитории, иначе её могут «вынуть» из модели с помощью подобных уловок.
Кроме того, этот метод потенциально опасен не только для кражи лицензионных ключей: так можно попытаться обойти фильтры, защищающие от вредоносных ссылок, откровенного контента и утечек персональных данных.
El.kz также писал о том, что искусственный интеллект помог паре с редкой формой бесплодия зачать ребёнка.

