Бір кездері тек мәтін генерациясы мен сурет салу арқылы таң қалдырған ЖИ енді дауысты шынайы сөйлеуге үйреніп жатыр. Бұл бағытта Amazon компаниясы ерекше қадам жасады: олар Nova Sonic деп аталатын жаңа дыбыстық жасанды интеллект моделін таныстырды.
Nova Sonic — адамның даусын барынша табиғи түрде келтіретін, интонация мен эмоцияны жеткізе алатын интеллектуалды жүйе. Бұл — тек подкаст не аудиожазба құру ғана емес, жаңа буын аудио контент жасау дәуірінің бастауы болуы мүмкін.
Nova Sonic арқылы генерацияланған дауыс роботтық синтезден мүлдем алшақ. Дауыстың ритмі, үзілісі, дем алуы, екпіні — барлығы нақты адамның даусын еске түсіреді. Тыңдаушы бұл дыбысты жасанды интеллект емес, шын адам оқыды деп қабылдауы мүмкін.
Nova Sonic бірнеше тілді жетік меңгеріп, әр тілдің фонетикасын, интонациялық құрылымын, дыбыстау мәдениетін дұрыс орындай алады. Бұл оны халықаралық контент жасауда әмбебап құрал етеді.
Пайдаланушы өз дауысын 30 секундтық жазба арқылы таныстыра алады. Осыдан кейін Nova Sonic мәтінді сол дауыс үлгісімен оқып бере алады. Бұл дубляж саласында, подкастингте, TikTok/YouTube контентінде — шынайылықты арттыратын таптырмас шешім.
Nova Sonic қуаныш, ренжу, таңдану, салмақтылық, ресмилік, сұрақтық тон сияқты сөйлеу реңктерін шебер жеткізеді. Жарнама стилінде немесе әңгімелесу формасында сөйлеуді де оңай ауыстыра алады.
Nova Sonic ең алдымен AWS (Amazon Web Services) инфрақұрылымы арқылы ұсынылады. Яғни:
Дыбыстық жасанды интеллект — соңғы жылдары өте қарқынды дамып жатқан сала. Қазір онда бірнеше ойыншы бар:
- ElevenLabs — дауысты клондау және аудио генерация саласында танымал стартап.
- Google — Text-to-Speech және Project Euphonia жобалары арқылы дамып келеді.
- Microsoft — Azure AI арқылы аудиожасау сервистерін ұсынып отыр.
Nova Sonic осы тізімге Amazon-ның жауабы ретінде қосылып отыр. Оның басты артықшылығы — бұлттық масштабтағы интеграция, яғни кез келген AWS клиентіне қолжетімділігі.
Nova Sonic технологиясы қазақ тілді контентке де үлкен серпін беруі мүмкін. Егер бұл модельге қазақ тілі бейімделсе:
Nova Sonic — Amazon-ның дыбыстық жасанды интеллект саласындағы үлкен қадамы. Ол тек роботтың даусын өзгерту емес, шын адамға ұқсайтын дауыс арқылы тыңдаушыға эмоция жеткізу мүмкіндігін ұсынады. Енді жазылған мәтінді шынайы оқылған әңгімеге айналдыру — бірнеше секундтың ісі ғана. Контент жасау, жарнама, подкаст, аудиожаңа форматтар, дубляж — бәрі қолжетімді бола бастайды.
Аршат Ораз