Группа компаний ЦРТ представила синтез речи нового поколения
Группа ЦРТ разработала новое поколение синтеза речи с помощью искусственного интеллекта для контактных центров крупного бизнеса — банков, телекома, госсервисов, где технология применяется в диалоговых ассистентах.
Синтез речи нового поколения уже встроен в продукты ЦРТ для создания диалоговых ассистентов и доступен для установки on-prem — на серверах клиентов, что позволяет им максимально адаптировать применение синтеза для роста бизнеса и улучшения клиентского опыта. В том числе у клиентов появляется возможность регулировать эмоции и манеру речи в зависимости от кейса.
"Новое поколение синтеза обеспечивает плавность и выразительность прочтения любого текста, при этом нам удалось добиться максимальной реалистичности синтезированной речи. Прорыв заключается не только в реалистичности, но и в скорости — теперь для создания синтеза речи для промышленного применения требуется порядка одного часа речи диктора и две недели разработки, тогда как ранее была потребность в десятках часов и трех месяцах разработки. Также наше решение может применяться в различных системах помощи слабовидящим людям и в других cценариях. Кроме того, все достижения нашего R&D-центра в этой области мы используем для защиты голосовой биометрии от дипфейков — включая попытки подделки голоса с помощью предзаписи или синтеза речи, что особо востребовано в проектах национальных биометрических платформ и контактных центрах для исключения попытки мошенников выдать свой голос за голос клиента. Так мы инвестируем не только в речевые технологии, биометрию, но и в технологии защиты", - рассказал Дмитрий Дырмовский, CEO группы компаний ЦРТ.
Для достижения высокой точности, стабильности и качества генерации речи, важно правильно обучить нейронную сеть на определенном количестве данных. Эксперты ЦРТ снизили требуемый объем данных с десятков часов до часа, а время выпуска готовой модели голоса сократили с нескольких месяцев до двух недель. Это позволяет экономить и финансовые ресурсы, и время, быстрее и дешевле выводить продукты на рынок. Новое поколение синтеза уже доступно на русском языке, идет работа по адаптации английского и казахского языков.
В автоматизированных сценариях работы контактных центров, когда уникальный текст ответов формируется прямо во время звонка, технология позволяет персонализировать общение с каждым клиентом, осуществляя синтез в реальном времени, живо, интонационно и эмоционально корректно. В технологии также есть модуль предсказания ударений в словах автоматическое исправление распространенных орфографических ошибок. Благодаря глубокому лингвистическому анализу текста, произношение будет соответствовать нормам языка даже в сложных случаях.