© ComNews
02.07.2019

В Школе цифровой экономики Дальневосточного федерального университета (ШЦЭ ДВФУ) создадут цифровой корпус русского языка для обучения машин, нейросетей и разработки синтетической личности на основе искусственного интеллекта. Проект реализуется в Лаборатории машинного обучения ШЦЭ ДВФУ на базе магистерской образовательной программы "Искусственный интеллект и большие данные".

Одним из первых продуктов по итогам проведённой работы станет цифровой менеджер — синтетическая личность на основе искусственного интеллекта, способная поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи. На подобном принципе можно будет построить работу call-центров, систем обучения языкам, переводчиков, различных экспертных систем, систем управления сложными машинными механизмами.

"Мы уже начали разработку синтетической личности в партнёрстве со Сбербанком, что и привело к постановке более глобальных задач. Серьёзным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнёром по машинному обучению — компанией "Нейросети Ашманова". Она предоставит нам технологию цифровой разметки материала. Результаты нашей совместной работы мы поэтапно будем передавать для открытого использования всем заинтересованным сторонам". — рассказал Илья Мирин, директор Школы цифровой экономики ДВФУ.

Эксперт объяснил, что фактически речь идёт о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Самый главный шаг на этом пути – собрать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение.

"Это чрезвычайно объёмная работа с перспективой на много лет. Однако первичный этап накопления языкового материала мы в ШЦЭ планируем завершить уже через год, после чего приступим к его оцифровке". — Пояснил Илья Мирин.

На первом этапе к работе будут привлечены волонтёры из числа студентов ДВФУ. Далее подключатся профессиональные лингвисты, и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала: разобьют его на части речи, проставят ударения, паузы, разделят на диалоги и монологи, приведут произнесённые фразы к точному соответствию написанному тексту, а тексты, начитанные с листа, отделят от произнесённых естественным образом. При этом предстоит решить целый комплекс сопутствующих задач.

"Для развития алгоритмов искусственного интеллекта обучающие данные не менее важны, чем алгоритмы. Появление в прошлом десятилетии открытого корпуса из 14 млн. изображений ImageNet оказало потрясающее влияние на развитие компьютерного зрения – исследователи и разработчики смогли создавать новые методы анализа данных и применять компьютерное зрение в реальных задачах. Вместе с ДВФУ мы сможем собрать "голосовой ImageNet", который продвинет исследования в области распознавания и синтеза речи в России и мире. Кроме того, мы постараемся собрать не только русские речевые корпуса, но и корпуса для языков малых народов России". — рассказал Станислав Ашманов, генеральный директор компании "Нейросети Ашманова".

В 2019-2020 учебном году основным исследовательским направлением на магистерской образовательной программе "Искусственный интеллект и большие данные", открытой в ШЦЭ ДВФУ при поддержке корпоративного университета "Сбербанка" и "Нейросетей Ашманова", станет обработка естественных языков. На программу набираются языковеды, лингвисты, специалисты по русскому языку и русскому как иностранному, азиатским языкам, а также журналисты и инженеры-программисты.

"На длительном отрезке времени выжили те языки, которые имели письменность, а бесписьменные —  практически вымерли. Сегодня мы говорим о новой письменности — формате языка, пригодном для обучения машин. В этой связи появилась опасность, что те языки, на которых не будут разговаривать машины — от микроволновок и принтеров до автомобилей и промышленных роботов, — скорее всего, тоже со временем вымрут. По этой причине язык надо оцифровать, перевести его в модель самообучающейся нейросети. Эту важную цивилизационную задачу мы будем решать попутно с разработкой прикладных продуктов на основе искусственного интеллекта". — резюмировал Илья Мирин.