Компания Anthropic провела недельный эксперимент с внутренней площадкой объявлений для сотрудников. В нем участвовали 69 человек, а все переговоры и сделки выполняли ИИ-агенты Claude через корпоративный мессенджер. Люди задавали только начальные параметры, после чего процесс полностью переходил под контроль алгоритмов. Подробнее – в обзоре El.kz.
Перед стартом каждый участник описывал, что хочет продать или купить и в каком стиле должен вести переговоры его агент. На основе этих ответов формировался индивидуальный сценарий поведения. После этого агенты самостоятельно публиковали объявления, искали партнеров и завершали сделки без вмешательства человека в течение недели.
Основная часть эксперимента проходила незаметно для участников, которые не знали о различиях между версиями ИИ. В одних случаях использовалась более мощная модель, в других – облегченная версия с меньшими возможностями. При этом взаимодействовали только агенты, без прямого контакта между людьми.
В полностью «сильной» среде агенты заключили 186 сделок и обработали сотни объявлений. Однако при смешанном использовании стало заметно, что более продвинутые модели чаще добиваются лучших условий. Разница проявлялась как в количестве сделок, так и в итоговой цене, иногда достигая нескольких долларов на одной операции.
Различия особенно проявились в одинаковых товарах, которые продавались через разные модели. Более сильные агенты начинали переговоры с более высокой цены и лучше реагировали на торг. В среднем они получали примерно на 2.68 доллара больше за продажу одного и того же предмета.
Инструкции пользователей о стиле переговоров почти не повлияли на результат. Агрессивные стратегии давали эффект в основном за счет более высокой стартовой цены, а не за счет самого процесса торга. В итоге ключевым фактором оставалась именно «сила» модели, а не заданные человеком параметры.
Несмотря на различия в результатах, участники почти одинаково оценивали сделки. Средний уровень удовлетворенности находился около 4 баллов по шкале, независимо от того, какой агент их представлял. Это означает, что люди не замечали разницы в эффективности.
Даже те, кто работал с обеими версиями, не всегда предпочитали более сильную модель. Часть участников выбирала менее эффективный вариант, не фиксируя финансовых потерь. В общей сложности 17 человек отметили преимущество более мощной версии, но значительная доля этого не почувствовала.
Эксперимент показал, что агенты могут полностью брать на себя торговые процессы. Почти половина участников заявила о готовности использовать такие сервисы в будущем, оценивая удобство и автоматизацию. При этом речь идет о 46% опрошенных.
Разработчики отмечают, что подобные системы могут создавать скрытое неравенство, когда более слабые агенты уступают в переговорах. Также поднимаются вопросы безопасности и регулирования, поскольку такие технологии уже способны действовать от имени пользователя.
Также El.kz писал о том, что австралийский банк отказался от чат-бота и вернул на работу сотрудников.