Как понять, что текст написал ИИ, а не человек, выяснили ученые

Как понять, что текст написал ИИ, а не человек, выяснили ученые

Команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров представила прорывной метод, позволяющий не только различать тексты, созданные человеком и нейросетью, но и понимать, какие признаки лежат в основе таких решений. Работа, принятая на конференцию Findings of ACL 2025 и опубликованная как препринт на arXiv, отвечает на растущую проблему распознавания сгенерированного контента в эпоху больших языковых моделей (LLM) вроде ChatGPT, Gemma и LlaMA, передает El.kz.

Проблема и решение

С развитием LLM интернет, учебники, научные статьи и другие источники заполнились текстами, созданными ИИ. Это создало потребность в надёжных детекторах, однако существующие системы часто работают как «черные ящики», выдавая вердикт без объяснения. Исследователи предложили новый подход, используя разреженные автокодировщики (Sparse Autoencoders, SAE), которые анализируют внутренние состояния глубоких слоев языковых моделей. SAE раскладывает сложные сигналы нейросети на «атомарные» признаки, такие как стилистика, сложность текста и степень уверенности, делая процесс интерпретируемым.

Лаида Кушнарева, старший академический консультант Huawei, отметила:

«Люди распознают тексты ИИ по сухому языку, длинным вступлениям или повторениям. Наш детектор на базе SAE выделяет числовые признаки, интерпретируемые человеком, обходя существующие решения. Он даже выявляет попытки скрыть генерацию, например, добавлением лишних символов».

Методология и выводы

Учёные подавали тексты в модель Gemma-2-2B, сохраняли внутренние состояния и выделяли тысячи признаков с помощью SAE. Классификатор, обученный на этих данных, выявил как универсальные черты (сложные синтаксические конструкции в научных текстах, многословность в финансовых), так и специфические для отдельных моделей. Например, признак №3608 связан с синтаксической сложностью: его усиление приводит к запутанным предложениям, а ослабление — к коротким фразам. Признак №4645 отражает уверенность, а №6587 — многословные вступления.

Анастасия Вознюк из МФТИ добавила:

«Мы не только анализируем признаки, но и управляем генерацией, усиливая или ослабляя их. Например, изменение “академичности” языка меняет стилистику текста». Исследование показало, что стандартные запросы к LLM легко обнаруживаются, но персонализированные задания могут усложнить детекцию.

Перспективы и значение

Новый подход сочетает автоматический анализ, интерпретацию и эксперименты с управлением (steering), создавая основу для прозрачных детекторов. Такие инструменты пригодятся преподавателям, редакторам и борцам с дезинформацией. В долгосрочной перспективе работа демистифицирует ИИ, раскрывая, как нейросети создают тексты. Следующие шаги — адаптация метода к мощным моделям и поиск сложных признаков для противодействия недобросовестному использованию ИИ.

Метод от Сколтеха и коллег открывает путь к более понятным и надёжным детекторам текстов ИИ. Это шаг к балансу между технологическим прогрессом и сохранением человеческого творчества.

Ранее мы писали, что сайты теряют трафик из-за искусственного интеллекта