© ComNews
24.02.2025

Команда VK Видео в 10 раз увеличила объем видео с субтитрами и повысила точность обработки расшифровки речи. Благодаря этому просмотр видео стал еще удобнее. Речь говорящего оформляется в текстовые субтитры в виде предложений со знаками препинания и заглавными буквами с учетом особенностей разговорной, узкоспециализированной лексики и неологизмов.

В ленте пользователя на главном экране 8 из 10 видео будут с новыми субтитрами. Автоматические субтитры в VK Видео генерируют ML-модели. Аудиопоток из видео проходит через несколько этапов обработки. Сначала нейросеть убирает посторонние шумы, выделяет речь и преобразует её в слова, а другие модели превращают расшифровку в текст. Финальный искусственный интеллект (ИИ) синхронизирует получившийся текст с аудиодорожкой. ИИ-модель допускает на 30% ошибок меньше, чем аналогичные модели генерации субтитров в подобных сервисах.

Технология работает как в профессиональных роликах, так и в пользовательском контенте. Она полезна людям с нарушениями слуха и в ситуациях, когда, например, включать звук в видео нежелательно.

Новости из связанных рубрик