3i Technologies: новый облачный сервис для обработки речевой информации
Консорциум 3i Technologies завершил формирование функционала облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition, предназначенного для работы с медиа-контентом и потоками голосовой информации в контакт-центрах. Сервис позволяет с точностью более 90% переводить "речь" в текстовый формат, параллельно редактируя его в пользовательском интерфейсе.
На финальной стадии 3i Speech Recognition дополнился личным кабинетом, хранилищем и редакторским интерфейсом, в котором можно обрабатывать текстовую информацию. Сервис позволяет работать с записями ТВ и радиоэфиров, материалами продакшн-студий, обращениями в контакт-центры и т. д. 3i Speech Recognition дает возможность загружать в персонализированное облачное хранилище до 18 часов аудио-информации, обрабатывая ее в несколько раз быстрее реального времени звучания. После выдает "стройный" текст, разбитый на предложения с расставленными знаками препинания. При прослушивании исходного материала, система автоматически "подсвечивает" произносимый фрагмент в текстовом блоке.
"Сервис ориентирован на специалистов, работающих с голосовой информацией. Например, он будет полезен службам контроля качества в контакт-центрах или консультантам, создающим сценарии телемаркетинговых акций. А также подразделениям телеканалов, которые занимаются расшифровкой телеэфиров. Сервис отличают высокая точность распознавания речи, автоматическая расстановка знаков препинания, удобный редакторский интерфейс и возможность интеграции с наиболее распространенными программными платформами автоматизации совместной деятельности рабочих групп", - говорит председатель совета директоров консорциума 3i Technologies Алексей Любимов.
В сервисе используются языковые и акустические модели, построенные с применением машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU.
Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область. Например, для перевода в текст телепередач определенной тематики или для обработки узкоспециализированных телемаркетинговых сценариев.
Сервис поддерживает русский, английский, китайский, немецкий и испанский языки. В 3i Speech Recognition может быть интегрирован сервис машинного перевода.
Тестовая версия сервиса доступна по ссылке:
https://dev.3i-analytics.ru/speech-recognition/description
Консорциум 3i Technologies учрежден в 2014 году компаниями DSS Lab и InfoQubes, в 2016 к нему присоединилась компания PROMT. Консорциум объединяет российские научные и инженерные коллективы, специализирующиеся на разработке технологий, продуктов и сервисов интеллектуальной обработки больших массивов данных различной природы. Консорциум обладает уникальными технологиями поиска, обработки и анализа текстовой, аудио- и видеоинформации, которые защищены патентами и авторскими свидетельствами. Компании 3i Technologies предлагают клиентам широкий спектр программной продукции: от мобильных приложений до комплексных прикладных ИТ-решений и программных библиотек для сторонних разработчиков. Программные решения 3i Technologies внедрены у клиентов, работающих в РФ и странах СНГ.