Компания xAI представила новый инструмент синтеза речи, который позволяет преобразовывать текст в голос с различной интонацией и эмоциональными оттенками, пишет El.kz со ссылкой на X.
Разработанный сервис представляет собой Text-to-Speech API, предназначенный для генерации аудио на основе текстовых сообщений. Система может создавать речь, в которой учитываются паузы, изменение темпа, громкости и высоты голоса. Также допускается добавление таких элементов, как смех, вздохи или дыхание, что позволяет сделать звучание более естественным.
В текущей версии пользователям доступны несколько вариантов голосов. Они отличаются тембром и подачей речи, что позволяет выбирать подходящий вариант для различных задач, включая озвучивание текстов, создание аудиоконтента или интеграцию в цифровые сервисы.
Особенность инструмента заключается в возможности управлять интонацией прямо в тексте. Для этого применяются специальные обозначения или теги, которые задают нужный стиль произношения. Например, можно указать паузу в определенном месте, изменить скорость речи или добавить эффект шёпота. Такие команды вставляются непосредственно в текст и обрабатываются системой при генерации аудио.
Технология также поддерживает потоковую передачу звука в реальном времени через WebSocket. Это позволяет использовать сервис в приложениях, где требуется мгновенная генерация речи, например в чат-ботах, голосовых помощниках или интерактивных сервисах.
Готовый аудиосигнал может сохраняться в различных форматах. Среди поддерживаемых вариантов называются MP3 и mu-law, что позволяет интегрировать инструмент в разные программные среды и платформы.
Разработка подобных систем отражает общий рост интереса технологических компаний к инструментам синтеза речи на основе искусственного интеллекта. Они используются в медиа, образовательных сервисах, игровых проектах и других цифровых продуктах, где требуется автоматическое создание голосового контента.
Также El.kz рассказывал о будущем человечества совместно с ИИ.