Исследователи из Пермского Политеха нашли способ научить роботов говорить более эмоционально

15.06.2022

Сегодня в области искусственного интеллекта достаточно актуальны вопросы распознавания эмоций и эмоционального изменения голоса. В частности, эти технологии можно использовать в робототехнике, человеко-машинном взаимодействии, для голосового обучения, а также для определения физического состояния водителей. Ученые из Пермского Политеха предложили способ, который позволит роботам "считывать" эмоции людей и воспроизводить их в собственной речи. С помощью изменения интонации и ритма ученые создали эмоциональный голос.

По словам исследователей, эмоции – особый вид психических процессов, которые выражают то, что человек думает о своих отношениях с окружающей средой и самим собой. Способность испытывать их развивалась в процессе эволюции живых существ, помогая им более успешно адаптироваться к условиям жизни. Несмотря на то, что люди выражают чувства по-разному, есть универсальные эмоции, которые понятны для представителей различных культур. Но одна из проблем распознавания эмоций и синтеза речи состоит в том, что нет их точной формализации: люди могут интерпретировать чувства других неоднозначно и нечетко.

"В последнее время появилось много способов распознавания эмоций, в том числе с помощью искусственных нейронных сетей. Но научить робота воспроизводить эмоциональную речь все еще достаточно сложно. Это многоэтапный процесс, который включает анализ человеческой речи и обнаружение эмоций во всех фразах, а затем синтез речи робота с необходимыми эмоциями. Каждый из этих шагов отличается высокой степенью неопределенности. Чтобы научить робота человеческому тону, тембру и эмоциям, мы предложили использовать прямое обучение по аналогии", – рассказывает один из разработчиков, магистрант кафедры "Автоматика и телемеханика" электротехнического факультета Пермского Политеха Ян Якубчик.

Разработчики обнаружили эмоциональный интонационный паттерн в речи и воссоздали его по той же фразе, произнесенной другим голосом. Из-за различий в говорении и эмоциях разных людей существует разница в скорости и ритме речи. По словам ученых, необходимо найти повторяющиеся звуки во фразах и сопоставить их, чтобы верно изменить высоту тона и ритм речи робота. Чтобы найти оптимальное соответствие между временными рядами, представляющими звуки, они использовали технику динамического преобразования времени.

Для оценки работы метода ученые провели эксперимент. С помощью студентов Пермского института культуры они записали 8 голосовых форматов эмоций и первый голос в спокойном тоне. Далее были разработаны матмодели эмоций голоса с помощью двух методов: наименьших квадратов и кепстральных коэффициентов. Таким образом удалось синтезировать измененные голоса.

"Чтобы добавить эмоции к полученному голосу робота, мы использовали третий метод – прямое обучение. Неэмоциональная фраза корректируется с помощью матмодели эмоций. Метод позволяет изменять интонацию фразы, оставляя текст прежним", – поясняет научный руководитель разработчика, доцент кафедры автоматики и телемеханики Пермского Политеха, кандидат технических наук Юрий Липин.

Алгоритм позволил создать несколько фраз, которые звучали достаточно естественно. В дальнейших планах разработчиков – создание языковой модели для распознавания и воссоздания эмоций, так как изменение речи в зависимости от эмоций во многом зависит от языка.

Исследователи из Пермского Политеха нашли способ научить роботов говорить более эмоционально

Новости из связанных рубрик

Регионы

Телеком-рынок стран СНГ растет на 4-6% ежегодно

В Нижнем Новгороде появилась первая в России будка фрод-рулетки

РФ

"Ростелеком" установил гидрологический комплекс для мониторинга уровня воды на реке Ишим

Крымская "Мрия" стала первым курортом в России, где внедрили биометрию для заселения

ПФО

"Ростелеком" взял под контроль Кировский мост в Самаре

Нижегородский таксопарк снизил аварийность на 70% с помощью ИИ

К концу 2025 г. 6% от всего объема базовых станций будут отечественными

Скепсис против надежды: мнения игроков рынка о возвращении западных компаний разделились

Вузы попросили Минобрнауки увеличить финансирование бюджетных мест для обеспечения техлидерства

Мошенники научились создавать клоны карт-дропперов на телефонах жертв

Дефицит промышленных кадров со знанием ИИ к 2030 году достигнет 3 млн человек

Депутат Боярский рассказал о втором пакете мер по борьбе с мошенничеством

Максут Шадаев: К 2031 г. интернет будет на всех федеральных трассах

Телеком-рынок стран СНГ растет на 4-6% ежегодно

В Нижнем Новгороде появилась первая в России будка фрод-рулетки

"Ростелеком" установил гидрологический комплекс для мониторинга уровня воды на реке Ишим

Fix Price развивает онлайн-продажи и клиентский сервис

"Северсталь-инфоком" внедрил информационную систему 1С:ERP в "Стальэмали"

Агрохолдинг "СТЕПЬ" тестирует роботов на сырном производстве

"Ростелеком" представил прототип новой информационной медицинской системы

ИИ подберет подходящие планировки квартир для покупателей "Самолета"

Эволюция цифрового маркетинга

ИИ-ассистент. Восстания машин не будет, а легкая жизнь где-то рядом

Просмотры детского контента в VK Видео за год выросли более чем в 30 раз

Альянс в сфере ИИ представил Кодекс этики в сфере ИИ в медицине и здравоохранении

Количество запросов к данным о доменах российских компаний достигло 15 млн

ИТ-компании стали искать сотрудников по скилам

"Софтлайн" реорганизовала владения АО "Банк Синара" в капитале компании в связи с переходом доли на другое юридическое лицо