Крупные компании, разрабатывающие искусственный интеллект, всё активнее ищут новые способы улучшить качество обучения своих моделей. Один из таких подходов вызывает всё больше вопросов у юристов и специалистов по этике, пишет El.kz.
По данным издания Wired, OpenAI и компания Handshake AI, занимающаяся подготовкой обучающих данных, просят сторонних подрядчиков загружать реальные рабочие материалы, созданные ими на предыдущих и текущих местах работы.
Речь идёт не о тестовых заданиях или искусственно созданных примерах, а о настоящих документах, которые люди использовали в своей профессиональной деятельности. Внутренние материалы OpenAI, с которыми ознакомились журналисты, указывают, что подрядчикам предлагают описывать задачи, выполнявшиеся на других работах, и прикладывать реальные результаты этой работы. Это могут быть документы, таблицы, презентации, изображения или даже репозитории с программным кодом — не краткие описания, а сами файлы.
Такой подход вписывается в более широкую тенденцию в ИИ-индустрии. Компании всё чаще делают ставку не на массовые, но поверхностные данные, а на высококачественные примеры реальной офисной и интеллектуальной работы. Считается, что именно такие данные позволяют обучать модели выполнять сложные задачи — от анализа документов до подготовки отчётов и деловой переписки. В перспективе это может привести к автоматизации значительной части труда «белых воротничков».
OpenAI подчёркивает, что подрядчики должны предварительно удалять из загружаемых материалов конфиденциальную информацию и персональные данные. Для этого им предлагается использовать специальный инструмент ChatGPT, предназначенный для «очистки» файлов от чувствительных сведений. Формально ответственность за то, какие данные попадают в систему, возлагается на самих исполнителей.
Однако именно этот момент вызывает наибольшую тревогу у экспертов. Юрист по интеллектуальной собственности Эван Браун отметил, что подобная схема несёт серьёзные правовые риски. По его словам, компании фактически вынуждены полностью доверять подрядчикам в вопросе того, какие материалы являются допустимыми, а какие подпадают под коммерческую тайну или договоры о неразглашении. Ошибка одного исполнителя может привести к утечке защищённой информации и юридическим последствиям.
Проблема усугубляется тем, что граница между «личной рабочей разработкой» и собственностью работодателя часто бывает размыта. Во многих компаниях документы, презентации и даже фрагменты кода юридически принадлежат организации, а не сотруднику, который их создал. Передача таких материалов третьей стороне, даже в обезличенном виде, может нарушать трудовые договоры и законы об интеллектуальной собственности.
На фоне растущего внимания регуляторов к источникам обучающих данных подобные практики могут привлечь дополнительное внимание контролирующих органов. За последние годы ИИ-компании уже не раз сталкивались с обвинениями в использовании данных без согласия правообладателей. Использование реальных рабочих файлов подрядчиков может стать следующим полем для конфликтов между разработчиками технологий, бизнесом и юристами.
Представитель OpenAI отказался комментировать информацию, опубликованную Wired. Тем не менее сама ситуация показывает, насколько остро индустрия искусственного интеллекта нуждается в чётких правилах. По мере того как ИИ всё глубже проникает в профессиональную среду, вопрос о том, на каких данных он обучается и кому эти данные принадлежат, становится не техническим, а общественно значимым.
El.kz также сообщал о том, что OpenAI тестирует раздел для поиска работы и улучшения резюме.