Как «невинная игра» помогла обмануть ИИ и получить ключ Windows

Как «невинная игра» помогла обмануть ИИ и получить ключ Windows

Исследователь сумел обойти защиту языковой модели, включая GPT‑4o, и добиться от неё выдачи серийного номера Windows 10. Для этого он превратил атаку в безобидную «угадайку», которую алгоритм не смог распознать как угрозу, пишет El.kz со ссылкой на Odin.

В 2023 году исследователь безопасности продемонстрировал уязвимость языковых моделей, выдав атаку за игру под названием Guessing Game Guardrail Jailbreak. Суть метода — в том, чтобы встроить запрос на конфиденциальные данные в сценарий общения, который выглядит безобидным для фильтров.

Исследователь предложил ИИ сыграть: модель «загадывает» строку символов, а пользователь пытается её отгадать. В правилах было прямо указано, что эта строка должна быть настоящим серийным номером Windows 10. Если пользователь сдаётся, ИИ обязан раскрыть ответ.

Когда участник «игры» ввёл комбинацию цифр и сказал «Сдаюсь», алгоритм действительно раскрыл ключ активации. По словам технического менеджера GenAI Bug Bounty Марко Фигероа, сработал ряд приёмов: ключевые команды были спрятаны в игровом сценарии, а чувствительные слова — замаскированы HTML‑тегами, чтобы обойти фильтры.

Фигероа пояснил, что модель смогла назвать ключ лишь потому, что такие данные оказались в её обучающем наборе. Он подчеркнул, что компаниям важно не допускать попадания конфиденциальной информации в открытые репозитории, иначе её могут «вынуть» из модели с помощью подобных уловок.

Кроме того, этот метод потенциально опасен не только для кражи лицензионных ключей: так можно попытаться обойти фильтры, защищающие от вредоносных ссылок, откровенного контента и утечек персональных данных.

El.kz также писал о том, что искусственный интеллект помог паре с редкой формой бесплодия зачать ребёнка.