Вчера, 14:38
Едиге против Витовта: как эмир остановил экспансию литовского Наполеона на востокеМультимодальные языковые модели, разработанные ведущими ИТ-компаниями, по-прежнему с трудом понимают показания аналоговых часов, сообщает ИА El.kz.
Исследователи из Эдинбургского университета (Шотландия) провели эксперимент, чтобы выяснить, насколько хорошо современные мультимодальные большие языковые модели (MLLM), такие как GPT от OpenAI, Gemini от Google и Claude от Anthropic, способны интерпретировать стрелочные часы. Результаты оказались неожиданно низкими: ИИ справился с задачей лишь в 25% случаев, тогда как большинство детей осваивают чтение времени по аналоговому циферблату в возрасте 6–7 лет.
В исследовании использовались разные типы изображений часов: с римскими и арабскими цифрами, с секундными стрелками и без них, с разнообразными цветовыми решениями. Оказалось, что особенно затруднительно для моделей было распознавание времени на стилизованных циферблатах и при наличии римских чисел.
Учёные подчёркивают, что, несмотря на впечатляющий прогресс ИИ в обработке изображений и понимании текста, визуальные задачи, связанные с пространственными соотношениями, до сих пор остаются серьёзным вызовом для машинного интеллекта.
Материал с результатами эксперимента в настоящее время ожидает научного рецензирования, но уже вызвал интерес в экспертных кругах как показатель текущих ограничений нейросетей.
Читайте также:
Вчера, 14:38
Едиге против Витовта: как эмир остановил экспансию литовского Наполеона на востокеВчера, 10:20
Асыки, ұшқан-ұшқан и догонялки в степи: во что играли казахские дети в ауле26 Мая, 15:28
Это самое инстаграмное село Казахстана: оно выглядит как живая открытка26 Мая, 12:40
Куда можно улететь из Алматы летом 2026 года: новые рейсы, море и Европа без пересадок