xAI представила функцию Custom Voices, которая позволяет создать голосовую копию человека по короткой записи. Для этого достаточно примерно 1 минуты естественной речи, записанной через фирменную консоль. Подробнее – в обзоре El.kz.
После загрузки система быстро обрабатывает данные и формирует готовую модель голоса. Её можно использовать в сервисах синтеза речи и голосовых интерфейсах.
Разработчики добавили механизм подтверждения, чтобы снизить риск злоупотреблений. Пользователь должен произнести специальную фразу, которую система анализирует в реальном времени. Затем происходит сравнение характеристик двух записей. Такой подход основан на 2 этапах проверки и позволяет убедиться, что голос принадлежит одному и тому же человеку.
Вместе с новой функцией обновилась и внутренняя библиотека голосов. В системе доступно более 80 вариантов, которые можно использовать без дополнительной настройки.
Голоса охватывают 28 языков и подходят для разных сценариев. При этом использование собственной голосовой модели не требует отдельной оплаты.
Новая функция стала частью более широкой экосистемы инструментов. Она работает вместе с решениями для распознавания и синтеза речи, которые компания представила ранее.
В основе голосовых сервисов лежит модель Grok Voice Think Fast 1.0. По данным компании, такие технологии уже применяются в сервисах поддержки и продаж, включая проекты, связанные с Starlink.
Также El.kz писал о том, что Grok улучшил способность генерации изображений.