Исследователи предложили метод, позволяющий эффективнее использовать графические процессоры при обучении языковых моделей, что в ряде случаев ускоряет процесс почти в два раза, пишет El.kz со ссылкой на Gizmochina.
Обучение крупных моделей искусственного интеллекта требует огромных вычислительных ресурсов. Затраты зависят не только от количества задействованных GPU, но и от того, насколько полно они загружены. При масштабировании систем даже небольшие периоды простоя превращаются в существенные потери времени и энергии.
Команда Массачусетского технологического института совместно со специалистами из NVIDIA сосредоточилась на этапе обучения с подкреплением, известном как фаза развертывания. На этом этапе модель генерирует несколько вариантов ответов, чтобы определить, какие решения приводят к лучшему результату. Этот процесс критически важен для моделей, ориентированных на сложные рассуждения, но занимает большую часть общего времени обучения. По оценкам исследователей, на него может приходиться до 85% вычислительных затрат.
Проблема связана с тем, что часть ответов формируется быстро, а некоторые требуют значительно больше времени. Из-за необходимости синхронизации графические процессоры вынуждены ждать завершения самых долгих операций, что приводит к простоям.
Предложенное решение получило название Taming the Long Tail. Его суть в том, чтобы задействовать освободившиеся мощности для одновременного обучения облегченной вспомогательной модели. Она обновляется в реальном времени на основе основной системы и используется для ускорения генерации токенов. Подход основан на принципе спекулятивного декодирования, но в отличие от традиционной схемы вспомогательная модель постоянно адаптируется и не устаревает по мере изменения основной, - говорится в сообщении.
Испытания на нескольких моделях с логической ориентацией и реальных наборах данных показали ускорение обучения от 70 до 210% по сравнению с базовыми вариантами. При этом уровень точности остался на прежнем уровне, что указывает на повышение эффективности без потери качества.
Также El.kz сообщал о том, что ИИ сможет делать компрометирующее фото и как от этого защититься.