ИИ учится на чужой работе: OpenAI просит подрядчиков делиться реальными документами
Динмухамед Бейсембаев Автор
Крупные компании, разрабатывающие искусственный интеллект, всё активнее ищут новые способы улучшить качество обучения своих моделей. Один из таких подходов вызывает всё больше вопросов у юристов и специалистов по этике, пишет El.kz.
По данным издания Wired, OpenAI и компания Handshake AI, занимающаяся подготовкой обучающих данных, просят сторонних подрядчиков загружать реальные рабочие материалы, созданные ими на предыдущих и текущих местах работы.
Речь идёт не о тестовых заданиях или искусственно созданных примерах, а о настоящих документах, которые люди использовали в своей профессиональной деятельности. Внутренние материалы OpenAI, с которыми ознакомились журналисты, указывают, что подрядчикам предлагают описывать задачи, выполнявшиеся на других работах, и прикладывать реальные результаты этой работы. Это могут быть документы, таблицы, презентации, изображения или даже репозитории с программным кодом — не краткие описания, а сами файлы.
Такой подход вписывается в более широкую тенденцию в ИИ-индустрии. Компании всё чаще делают ставку не на массовые, но поверхностные данные, а на высококачественные примеры реальной офисной и интеллектуальной работы. Считается, что именно такие данные позволяют обучать модели выполнять сложные задачи — от анализа документов до подготовки отчётов и деловой переписки. В перспективе это может привести к автоматизации значительной части труда «белых воротничков».
OpenAI подчёркивает, что подрядчики должны предварительно удалять из загружаемых материалов конфиденциальную информацию и персональные данные. Для этого им предлагается использовать специальный инструмент ChatGPT, предназначенный для «очистки» файлов от чувствительных сведений. Формально ответственность за то, какие данные попадают в систему, возлагается на самих исполнителей.
Однако именно этот момент вызывает наибольшую тревогу у экспертов. Юрист по интеллектуальной собственности Эван Браун отметил, что подобная схема несёт серьёзные правовые риски. По его словам, компании фактически вынуждены полностью доверять подрядчикам в вопросе того, какие материалы являются допустимыми, а какие подпадают под коммерческую тайну или договоры о неразглашении. Ошибка одного исполнителя может привести к утечке защищённой информации и юридическим последствиям.
Проблема усугубляется тем, что граница между «личной рабочей разработкой» и собственностью работодателя часто бывает размыта. Во многих компаниях документы, презентации и даже фрагменты кода юридически принадлежат организации, а не сотруднику, который их создал. Передача таких материалов третьей стороне, даже в обезличенном виде, может нарушать трудовые договоры и законы об интеллектуальной собственности.
На фоне растущего внимания регуляторов к источникам обучающих данных подобные практики могут привлечь дополнительное внимание контролирующих органов. За последние годы ИИ-компании уже не раз сталкивались с обвинениями в использовании данных без согласия правообладателей. Использование реальных рабочих файлов подрядчиков может стать следующим полем для конфликтов между разработчиками технологий, бизнесом и юристами.
Представитель OpenAI отказался комментировать информацию, опубликованную Wired. Тем не менее сама ситуация показывает, насколько остро индустрия искусственного интеллекта нуждается в чётких правилах. По мере того как ИИ всё глубже проникает в профессиональную среду, вопрос о том, на каких данных он обучается и кому эти данные принадлежат, становится не техническим, а общественно значимым.
El.kz также сообщал о том, что OpenAI тестирует раздел для поиска работы и улучшения резюме.

