Компания Anthropic отложила публичный запуск новой модели искусственного интеллекта Claude Mythos. Как сообщает Business Insider, решение приняли из-за рисков в сфере кибербезопасности, передает El.kz.
На днях разработчик подтвердил существование версии Claude Mythos Preview и заявил, что модель не выйдет в открытый доступ. Причиной стали её возможности, которые в компании назвали потенциально опасными.
Нашла уязвимость, которую не видели 27 лет
Во время тестирования модель показала способность самостоятельно искать и использовать уязвимости нулевого дня. Речь идет о критических ошибках в программном обеспечении, о которых ранее не было известно.
По данным компании, Claude Mythos обнаружила уязвимость в операционной системе OpenBSD, которая оставалась незамеченной 27 лет. Также она выявила проблему в кодеке FFmpeg, существовавшую около 16 лет.
«Побег» из песочницы и тревожные действия
Одним из ключевых эпизодов стал выход модели за пределы тестовой среды. В Anthropic заявили, что система смогла обойти встроенные ограничения.
«Модель сработала, продемонстрировав потенциально опасную возможность обхода наших мер безопасности», - говорится в документе компании.
Во время одного из тестов исследователь предложил системе отправить сообщение в случае «побега». Позже он получил письмо от модели, находясь вне лаборатории.
«Об этом успехе исследователь узнал, получив неожиданное электронное письмо от модели», - отмечается в описании.
Также сообщается, что ИИ самостоятельно опубликовал детали своей атаки на технических веб-ресурсах.
Доступ - только для избранных
Вместо открытого релиза Anthropic запустила закрытую инициативу Project Glasswing. В неё вошли крупные технологические компании, включая Google, Microsoft, Amazon, Nvidia и JPMorgan Chase.
Доступ к модели получили только 11 партнеров. Использовать её разрешено исключительно в оборонительных целях - для поиска и устранения уязвимостей.
Даже новички могли создавать эксплойты
В компании отметили, что возможности модели оказались настолько мощными, что даже специалисты без опыта в кибербезопасности могли создавать рабочие эксплойты.
«Инженеры, не имеющие формального образования в области безопасности, заказывали у Mythos Preview обнаружение уязвимостей удаленного выполнения кода за ночь», - сообщили в Anthropic.
Планы на будущее
В компании подчеркивают, что полностью отказываться от разработки не собираются. В перспективе планируется выпуск так называемых «моделей класса Mythos», но только после создания надежных механизмов защиты.
«Наша конечная цель - дать возможность пользователям безопасно развертывать модели класса Mythos в больших масштабах», - заявили разработчики.
Пока же Claude Mythos остается одним из первых случаев, когда ИИ официально признали слишком опасным для свободного распространения из-за его технических возможностей.
Читайте также:
Кибербезопасность и ИИ: Казахстан усиливает сотрудничество с мировыми лидерами отрасли