Как ускорить робота
Согласно данным исследования, проведенного "АктивБизнесКонсалт", половина российских компаний применяет разметку данных для распознавания объектов в ходе проектов по внедрению систем, использующих искусственный интеллект (ИИ) и машинное обучение. Из этого количества 44% используют технологию для распознавания объектов на фото или видео, 23% - для решения задач оценки, прежде всего, качества работы, как людей, так и нейросетей, 15% - применяют разметку для работы с текстом, причем ровно две трети от этого числа для задачи преобразования текста в речь. Приблизительно каждый двенадцатый применяет разметку данных для так называемых обогащающих задач, например, для заполнения каких-либо отсутствующих у бизнеса данных, часто требующих дополнительного физического действия (например, сфотографировать определенное место или найти пропуски при заполнении).
По оценке руководителя проекта Elementary компании "АктивБизнесКонсалт" Дмитрия Теплицкого, мировой рынок средств разметки данных в текущем году составит $800 млн., а темпы ежегодного прироста составляют около 50%. В России рынок развивается еще более динамично: "Российский рынок разметки в первом полугодии оценивается в 1,6 млрд руб., что на 70% выше, чем годом ранее. По итогам 22 г. можно ожидать, что его объем составит около 2,3 млрд руб. Темпы роста российского рынка разметки будут выше в силу "меньшей зрелости" и активного роста разработок в сфере машинного обучения во многих отраслях бизнеса, начиная от безопасности, заканчивая сельским хозяйством. Прогнозируемый темп роста рынка разметки в РФ на промежутке 2022/2023 гг. - 60-70%".
"Ни для кого не секрет, что в развитии голосовых помощников, одна из затратных статей – это содержание штата разметчиков, которые просматривают диалоги для выявления новых интентов, готовят массивы данных для обучения роботов, корректируют неточности в определениях тем и ответов на вопросы клиентов. Технологии по разметке данных позволяют значительно сократить операционные затраты и максимально автоматизировать процесс обучения", - так оценивает важность комплекса задач по разметке данных директор по продукту цифровизации клиентского сервиса в дистанционных каналах BSS Юлия Вдовина. По ее мнению, автоматизация процесса разметки сокращает сроки обучения голосовых роботов даже не на проценты, а кратно.
"Любая модель машинного обучения, будь то классические алгоритмы либо глубокие нейронные сети, требует качественного датасета (обучающего множества примеров). Чем он более разнообразен и качественно собран, тем модель сможет выучить более сложные и интересные закономерности и будет иметь лучшую обобщающуюся способность. Но чтобы собрать, а уж тем более, разметить такой массив данных, требуется большой человеческий ресурс. Поэтому такие платформы по разметке данных не заменимы. Благодаря им, ускоряется процесс разметки данных, что напрямую влияет на скорость разработки и доработки интеллектуальных систем на базе искусственного интеллекта", - уверен руководитель департамента цифровой трансформации Crosstech Solutions Group Роман Титов.
И.О. генерального директора "Систем компьютерного зрения" (входит в ГК "ЛАНИТ") Михаил Смирнов обращает внимание на то, что ручная разметка данных дорога и трудоемка, особенно если речь идет о больших объемах: "В последние годы объемы данных, доступных для обучения, неуклонно растут. Стоимость ручной разметки таких объемов данных может достигать миллионов рублей даже для небольших проектов. Ряд решений стал де-факто стандартом в области разметки, при этом компании идут как по пути организации серверов для разметки (например, на базе C-VAT), так и использования коммерческих сервисов". Такие сервисы Михаил Смирнов делит на три группы: краудсорсинговые платформы (наиболее известные - "Яндекс.Толока" и Amazon Mechanical Turk), предоставляющие услуги разметки от людей с разным уровнем подготовки со всего мира; коммерческие варианты C-VAT и другие решения, которые позволяют использовать готовую инфраструктуру, но со своим персоналом; компании, предлагающие услуги разметки с участием сотрудников и менеджеров (в частности, следящих за качеством работы).
"Обычно на первом этапе внедрения голосовых помощников компания понимает основные темы обращений клиентов. Найти массовые интенты, промаркировать выборки диалогов для обучения голосовых помощников также не составляет большого труда. Однако с развитием роботов, увеличением процента автоматизации, данная работа становиться все более кропотливой и требует больших ресурсов, - делится опытом реализованных проектов Юлия Вдовина. - Нахождение новых интентов и их стыковка, многоуровневая система выстраивания ответов (более 2-х интентов в вопросе, учет вероятности возможных ответов) становится все более трудозатратной и, более того, ручные процессы влекут за собой человеческие ошибки. Мы зачастую видим, что при таком принципе работы внедрение части релизов по развитию голосовых помощников у наших заказчиков ведут не к увеличению автоматизации, а к ее падению. Именно поэтому на данном этапе целесообразно использовать платформы по разметке данных". Если говорить об окупаемости, то здесь, по оценке представителя BSS, основные метрики успеха - рост автоматизации диалогов (быстрота, точность), а так же уменьшение штата разметчиков, что в настоящих условиях не маловажно".
Михаил Смирнов обращает внимание на то, что эти сервисы предоставляются на коммерческой основе, при сравнении с разметкой только своими специалистами, решения зачастую позволяют снизить стоимость разметки и, что важнее, значительно повысить ее скорость в случае обработки больших объемов данных. Компаниям часто нецелесообразно держать постоянный большой штат своих разметчиков и подготовленные системы для разметки. Но существуют и риски: "Существующие риски связаны с передачей ценных данных третьей стороне, сильно ограничивают применимость таких сторонних сервисов — несмотря на прописанные в договоре обязательства о безопасном хранении данных, технических препятствий к тому, чтобы данные "утекли", нет".
По оценке Романа Титова, главный результат применения платформ по автоматизации разметки данных состоит в том, что высвобождается ресурс дорогостоящего и дефицитного персонала: "Специалисты по созданию систем на базе искусственного интеллекта ценятся на рынке и получают высокую оплату за свой труд, поэтому использовать их в качестве разметчиков данных - плохая идея. Поэтому целесообразность таких систем очевидна. Модель машинного обучения ради модели никому не интересна, она должна приносить выгоду бизнесу, поэтому эти модели создаются из потребностей бизнеса. Каждая модель решает конкретную проблему. Возврат инвестиций происходит по-разному, в зависимости от мест применения. Это может быть и уменьшение отклика на какой-то запрос, что способствует увеличению скорости обработки этого запроса, которое напрямую связано с количеством обращений, которые может обработать компания, а это, в свою очередь, коррелирует с доходом, который получает компания. Также в качестве примера - такие модели уменьшают количество людей, принимающих участие в процессе, и исключают человеческий фактор в принятии решений, что экономит деньги бизнесу".
"Потребность в услугах по разметке данных среди крупнейших технологических компаний в России говорит о том, что в будущем спрос в разметке данных будет только расти. Большое количество компаний уже нуждаются в решении подобных задач, это и AI-разработчики, и компании, занимающиеся компьютерным зрением, сервисы-классифайды, обрабатывающие огромный массив данных ежедневно. С каждым годом меняется и усложняется сама разметка – в том числе и возможные форматы", - считает Дмитрий Теплицкий.