На какой стадии эволюции находится машинное обучение в России к началу 2024 года
Чунаев
менеджер ML-продуктов Selectel
Антон Чунаев, менеджер ML-продуктов Selectel, рассказывает, с чего начать, если вашей компании нужен искусственный интеллект.
Развитие ML в России во многом связано с тем, смогут ли компании "приручить" машинное обучение и сделать его незаменимой работающей частью бизнеса. Во многих случаях неудачи в этой сфере связаны с непониманием основных вех, которые организации предстоит пройти на этом пути.
Далее мы постарались собрать концептуальный чек-лист, который подойдет как компаниям-заказчикам, так и разработчикам перед стартом проектов по внедрению машинного обучения. Он поможет здраво оценить, насколько заказчик готов к такой работе.
1. Нулевой шаг для внедрения машинного обучения - это понимание, какую задачу планируется решать с его помощью. Без этого нет смысла обращаться к специалистам или создавать собственную ML-инфраструктуру. К сожалению, в этом часто кроется основная проблема. Бизнес должен начинать подобные проекты, когда будет определена конкретная цель, выраженная в цифрах. Например, снижение брака в конечных изделиях на 25%. Зачастую искусственный интеллект еще воспринимается руководителями предприятий как дорогая игрушка, которую можно себе позволить только в лучшие времена, а пока и "Васей обойдемся". Компании должны быть готовы вложиться в проект - этот процесс не будет быстр и дешев в ближайшие пять лет. Но, как показывает история, все регулярно повторяющиеся действия дешевле автоматизировать - требуется только понять, за какое время эта автоматизация окупится и какими методами ее проводить. Многие задачи решаются и без ML, а путем применения более простых статистических методов. Поэтому крайне важно найти грамотных консультантов (компанию или супервизора под конкретный проект) с инженерными компетенциями, которые помогут предварительно оценить стоимость подходящего решения и сопоставят с ожидаемой выгодой от внедрения.
2. Осознав цель и задачу, вам необходимо разработать метрики оценки, с помощью которых можно будет понять, насколько обоснованно будет внедрение ML-системы. Эти показатели необязательно должны фокусироваться на росте выручки, это могут быть и более прикладные задачи. Например, снижение расходов на ФОТ, снижение расходов на логистику и т.д. Главное, что следует учесть: одна и та же команда не должна просчитывать обоснование и итоги проекта, чтобы результаты были объективны.
3. Следующий шаг - сбор данных. Чаще всего у компаний нет нужных данных для машинного обучения, а те, что есть - низкого качества. В этом случае необходимо собирать данные уже в новом формате, на котором будущая модель будет обучаться. Обычно на сбор и подготовку данных может уйти несколько месяцев. Также следует учитывать, что для некоторых данных может существовать сезонность. Соответственно, накопление и обработка таких датасетов становится затратным мероприятием. Проще запускать обучение на неполных или синтетических данных, чем ждать накопления релевантной базы.
От данных в машинном обучении зависит буквально все. Например, если модель обучена на велосипедных рамах только синего цвета, все красные конструкции будут восприняты как брак. Зачастую стартапы, которые покупаются большими корпорациями, добиваются успеха не за счет алгоритмов, которые сейчас есть в открытом доступе, а благодаря доступу к пулу очищенных качественных данных. Скажем, к базе результатов МРТ, по которым можно отслеживать опухоли. В свою очередь, производители диагностических систем покупают уже обученную модель, которая видит новообразования в самых различных вариантах снимков. Бесплатный совет для стартаперов - ищите информацию, а потом думайте об алгоритмах.
4. Только после этого имеет смысл решать, будете вы строить собственную инфраструктуру самостоятельно или же обращаться к вендору за готовым решением. Первый вариант вынудит вас создавать в своей компании специализированный отдел, который будет заниматься ML-инфраструктурой. Этот вариант самый дорогостоящий, так как, кроме затрат на оборудование, придется искать соответствующий штат разработчиков. В крайне редких случаях один человек может заниматься полным циклом, однако чаще всего это должна быть команда. DevOps выстраивает все релевантные процессы. Кроме того, необходим ML-инженер, который будет отвечать за все инструменты для машинного обучения, и непосредственно специалист по разработке и обучению моделей. При этом даже в случае внедрения сервисной модели понадобятся администраторы для управления процессом внедрения и поддержки инфраструктуры.
5. После концептуального проектирования начинается тестирование разработанных моделей, которые пройдут ряд итераций, прежде чем будут внедрены в рабочий процесс. При этом эту процедуру придется проводить регулярно в случае, если будут происходить какие-то изменения техпроцесса. Более того, параллельно нужно проводить разработку новых, более точных моделей, хотя это не всегда обязательно.
Когда все эти этапы пройдены в верном порядке, компания может получить качественный продукт. Пока в промышленном масштабе "выстрелили" только компьютерное зрение и большие языковые модели (как ChatGPT), которые помогают автоматизировать множество рутинных операций. Однако уже сейчас технология может приносить ощутимую и измеряемую финансово прибыль, если подойти к процессу основательно.