Искусственный интеллект пока не справляется с офисной работой – исследование

Искусственный интеллект пока не справляется с офисной работой – исследование

Искусственный интеллект, несмотря на громкие заявления и ожидания, по-прежнему не готов полноценно заменить людей в офисах и компаниях, где требуется сложная интеллектуальная работа, пишет ИА El.kz со ссылкой на Digitaltrends.

Почти два года назад глава Microsoft Сатья Наделла заявлял, что генеративный ИИ вскоре возьмёт на себя большую часть умственного труда. Однако реальность оказалась куда прозаичнее. Если сегодня зайти в юридическую фирму, инвестиционный банк или консалтинговую компанию, станет очевидно, что ключевые решения по-прежнему принимают люди, а не алгоритмы. Новый масштабный анализ показывает, почему обещанная «революция замены» так и не состоялась.

Компания Mercor, специализирующаяся на обучающих данных, представила исследование под названием APEX-Agents. В отличие от привычных тестов, где нейросети просят написать стихотворение, кратко пересказать текст или решить абстрактную задачу, в этом случае моделям предложили реальные рабочие запросы специалистов. Это были задачи, с которыми ежедневно сталкиваются юристы, финансисты и консультанты. От ИИ требовалось не просто выдать ответ, а последовательно пройти несколько этапов работы, ориентироваться в разных источниках информации и связывать разрозненные данные в единый вывод.

Результаты оказались неожиданно жёсткими. Даже самые продвинутые модели, доступные сегодня на рынке, показали крайне низкую точность. Лучший результат не дотянул даже до четверти правильных решений. Gemini 3 Flash справился примерно с двадцатью четырьмя процентами заданий, а GPT-5.2 показал около двадцати трёх процентов. Остальные системы и вовсе застряли на уровне, который с трудом можно назвать приемлемым для реальной работы.

Ключевая проблема, как подчёркивает руководитель Mercor Брендан Фуди, заключается не в недостатке вычислительной мощности или логики, а в отсутствии полноценного понимания контекста. В реальной офисной среде информация редко находится в одном месте. Чтобы ответить на вопрос о соответствии компании требованиям GDPR, человеку приходится изучить переписку в корпоративном мессенджере, открыть внутренние документы в формате PDF, проверить таблицы с данными и только потом сделать обобщённый вывод. Для человека такой процесс привычен, а для ИИ он до сих пор остаётся слишком сложным.

Исследование показывает, что сегодня искусственный интеллект больше напоминает неопытного стажёра, чем квалифицированного специалиста. Он иногда даёт правильные ответы, но слишком часто ошибается, упускает детали или неверно связывает факты.

Тем не менее полностью расслабляться рано. Авторы исследования отмечают, что прогресс идёт очень быстро. Всего год назад аналогичные модели справлялись лишь с пятью-десятью процентами подобных задач. За короткий срок показатели выросли более чем вдвое. Это означает, что ИИ пока не готов самостоятельно «вести машину», но он стремительно учится и уже уверенно держится за руль.

Также El.kz писал о том, с какой скоростью ИИ развивается в разных странах мира.