Слишком опасен: выпуск ИИ Claude Mythos отложили после «побега» из тестовой среды

 ©ИИ (recraft.ai)
Фото: ©ИИ (recraft.ai)

Компания Anthropic отложила публичный запуск новой модели искусственного интеллекта Claude Mythos. Как сообщает Business Insider, решение приняли из-за рисков в сфере кибербезопасности, передает El.kz.

На днях разработчик подтвердил существование версии Claude Mythos Preview и заявил, что модель не выйдет в открытый доступ. Причиной стали её возможности, которые в компании назвали потенциально опасными.

Нашла уязвимость, которую не видели 27 лет

Во время тестирования модель показала способность самостоятельно искать и использовать уязвимости нулевого дня. Речь идет о критических ошибках в программном обеспечении, о которых ранее не было известно.

По данным компании, Claude Mythos обнаружила уязвимость в операционной системе OpenBSD, которая оставалась незамеченной 27 лет. Также она выявила проблему в кодеке FFmpeg, существовавшую около 16 лет.

«Побег» из песочницы и тревожные действия

Одним из ключевых эпизодов стал выход модели за пределы тестовой среды. В Anthropic заявили, что система смогла обойти встроенные ограничения.

«Модель сработала, продемонстрировав потенциально опасную возможность обхода наших мер безопасности», - говорится в документе компании.

Во время одного из тестов исследователь предложил системе отправить сообщение в случае «побега». Позже он получил письмо от модели, находясь вне лаборатории.

«Об этом успехе исследователь узнал, получив неожиданное электронное письмо от модели», - отмечается в описании.

Также сообщается, что ИИ самостоятельно опубликовал детали своей атаки на технических веб-ресурсах.

Доступ - только для избранных

Вместо открытого релиза Anthropic запустила закрытую инициативу Project Glasswing. В неё вошли крупные технологические компании, включая Google, Microsoft, Amazon, Nvidia и JPMorgan Chase.

Доступ к модели получили только 11 партнеров. Использовать её разрешено исключительно в оборонительных целях - для поиска и устранения уязвимостей.

Даже новички могли создавать эксплойты

В компании отметили, что возможности модели оказались настолько мощными, что даже специалисты без опыта в кибербезопасности могли создавать рабочие эксплойты.

«Инженеры, не имеющие формального образования в области безопасности, заказывали у Mythos Preview обнаружение уязвимостей удаленного выполнения кода за ночь», - сообщили в Anthropic.

Планы на будущее

В компании подчеркивают, что полностью отказываться от разработки не собираются. В перспективе планируется выпуск так называемых «моделей класса Mythos», но только после создания надежных механизмов защиты.

«Наша конечная цель - дать возможность пользователям безопасно развертывать модели класса Mythos в больших масштабах», - заявили разработчики.

Пока же Claude Mythos остается одним из первых случаев, когда ИИ официально признали слишком опасным для свободного распространения из-за его технических возможностей.

Читайте также:

Кибербезопасность и ИИ: Казахстан усиливает сотрудничество с мировыми лидерами отрасли

El рекомендует