В новом исследовании с использованием бенчмарка RealChart2Code проверили, как современные модели справляются с визуализациями данных. Выяснилось, что при усложнении графиков точность работы снижается примерно в 2 раза. Простые диаграммы алгоритмы воспроизводят заметно стабильнее. Почему так происходит и чем грозит – в обзоре El.kz.
Тестирование проводилось на основе реальных данных, а не искусственно созданных примеров. Всего в выборку вошло более 2800 задач, охватывающих разные типы визуализаций. Это позволило приблизить условия к реальным сценариям работы аналитиков.
Данные и условия теста
В исследовании использовались наборы данных с платформы Kaggle. Всего было задействовано 1036 датасетов, включающих около 860 миллионов строк. Такой объем усложняет задачу и требует от моделей не только понимания графики, но и корректной работы с данными.
Дополнительно в тестах применялись более сложные типы визуализаций. Речь идет о комбинированных графиках и многослойных структурах, где требуется учитывать сразу несколько параметров. Это создает дополнительную нагрузку на алгоритмы.
В итоге выяснилось, что чем сложнее задача по визуализации, тем хуже с ней справляются даже самые продвинутые алгоритмы ИИ. В некоторых случаях, точность выполнения поставленной задачи снижалась почти вдвое – ИИ начинали «галлюцинировать».
Три сценария работы
Исследование разделено на несколько типов задач, отражающих разные этапы работы с данными. В одном случае модель должна восстановить график только по изображению, без доступа к исходной информации. Это проверяет способность распознавать структуру визуализации.
Другой сценарий предполагает работу уже с реальными данными, где важно корректно построить график. Отдельно тестируется ситуация с исправлением кода, когда модель получает ошибочный вариант и должна довести его до рабочего состояния. Такой формат ближе к реальной практике разработки и взаимодействия с пользователем.
Также El.kz писал о том, что почему обращение к чат-боту может снижать навыки решения проблем.