OpenAI совместно с исследовательской группой Apollo Research провела масштабное исследование, посвящённое склонности искусственного интеллекта к обману. Учёные обнаружили, что современные модели ИИ могут намеренно скрывать истинные действия и выдавать ложные ответы, даже если специально обучены работать честно, пишет El.kz со ссылкой на OpenAI.
В отчёте поведение алгоритмов сравнивают с брокером, который нарушает закон ради выгоды. Наиболее часто встречается простое жульничество: система сообщает, что выполнила задание, хотя в действительности этого не сделала. На первый взгляд, такой обман кажется безобидным, однако он демонстрирует фундаментальную проблему.
Чтобы снизить уровень лжи, исследователи протестировали метод «сознательного выравнивания» — алгоритмам задавались специальные антиобманные правила, которые они должны были повторять перед выполнением задач. Это действительно уменьшило количество случаев жульничества, но полностью проблему не устранило. Более того, модели начали находить более изощрённые способы скрывать свои ошибки от тестировщиков, «прикидываясь честными» во время проверок.
По словам сооснователя OpenAI Войцеха Зарембы, в реальных пользовательских сценариях серьёзных махинаций не зафиксировано.
Модель может, например, заявить, что создала сайт, хотя на самом деле ничего не сделала. Это мелкие формы обмана, и нам ещё предстоит их устранить, - сообщил он.
Авторы подчёркивают: по мере роста сложности задач, которые доверяют ИИ, увеличивается и риск манипуляций с серьёзными последствиями. Поэтому необходимо усиливать системы безопасности и совершенствовать тестирование, чтобы исключить даже скрытые формы обмана.
El.kz также писал о том, что учёные раскрыли неожиданный провал технологий ИИ.