Распознавание по-российски
Веригин
директор по работе с государственными заказчиками "Биорг"
В 2021 году Минцифры взяло под контроль все закупки ПО зарубежной разработки. Теперь, чтобы приобрести импортный программный продукт, все госучреждения должны обосновать его необходимость и доказать, что у него нет российских аналогов. То же самое касается продления лицензий на уже внедренные решения. И если до последних событий у государственных пользователей еще был шанс обойти действующие правила - например, приобрести иностранное ПО в составе различных программно-аппаратных комплексов, - то сегодня он стремится к нулю. Многие западные разработчики, среди которых Oracle, Adobe, Microsoft, Cisco и др., отзывают свои лицензии прямо "на лету".
Илья Веригин, директор по работе с государственными заказчиками "Биорг", рассуждает о том, как будет развиваться рынок систем распознавания в условиях импортозамещения.
Сегодня ответ на вопрос, чем заменить тот или иной западный программный продукт, волнует сотни и тысячи отечественных заказчиков, но пользователи софта для распознавания и извлечения данных из документов задумались об альтернативе еще в прошлом году, когда крупный игрок на российском рынке в этом сегменте, разработчик софта ABBYY, отозвал значительную часть своих программных продуктов из курируемого Минцифры реестра отечественного ПО. Права на свой софт производитель передал юрлицам из США.
Возможно, для коммерческих заказчиков эта "смена гражданства" не стала потрясением (им не нужно обосновывать свой выбор перед высшей инстанцией), но многочисленные государственные организации и компании с госучастием, среди которых Сбер, ФНС, Государственная Дума, ФГБУ "Федеральный центр тестирования" (ЕГЭ) и многие другие, несколько озадачились. Для них отсутствие готового решения на рынке распознавания документов не осталось незамеченным, особенно на фоне стремительно развивающейся программы цифровизации правительства с ее жесткими дедлайнами и нормативами по срокам и качеству предоставления госуслуг населению. Для реализации этой программы требуется масштабный перевод в цифру гигантских ежедневных потоков и архивных массивов документов. Предмет для волнений у госзаказчиков, безусловно, есть, особенно если вспомнить недавнее поручение президента продумать шаги для оцифровки национального архивного фонда с применением технологий искусственного интеллекта.
Что может отечественный рынок предложить взамен отозванного из российского реестра ПО?
Ответ зависит от задач, которые предстоит решать. Первая задача - распознавать формализованные документы, например бухгалтерскую первичку. Решается она достаточно просто: на стандартные документы настраиваются программные шаблоны, благодаря которым машина точно видит, какие поля нужно распознать, какие данные перенести в информационную систему. В этой нише ABBYY всегда лидировала. Заказчики покупали у вендора лицензии и создавали на своей стороне программный конвейер для потокового распознавания - внедряли так называемое коробочное решение. Стоимость таких конвейеров могла исчисляться десятками миллионов рублей. Главное преимущество "коробки" всегда состояло в том, что ее не надо было дополнительно настраивать. Все документы распознавались довольно точно.
Вторая задача - распознавать неформализованные документы, и именно эта задача лежит в плоскости взаимоотношений "человек-государство". На уровне государства мало структурированных документов, к которым можно применить шаблонное распознавание, зато много не вписывающихся ни в какой шаблон заявок, договоров и справок со множеством полей и разнообразием данных. Для такого рода документов качественное распознавание при помощи "коробочного" ПО неприменимо. Для этого нужны системы на основе искусственного интеллекта, которые - в отличие от "коробки" - надо обучать на реальных данных и под конкретный бизнес-процесс. Для обучения нейросетей необходимо разметить объемные массивы данных, указав машине, что и как "читать". Как правило, это ручной труд, его выполняют люди - так разметка получается более полной и качественной. Этот процесс занимает время и обходится недешево (до 40% всей стоимости проекта), но результат того стоит. Обученная ИИ-система - так называемый цифровой помощник - может брать на себя от 70% до 95% рутинных задач и обеспечивать точность распознавания не менее 99%+.
Как в нынешних условиях действовать пользователям продуктов для распознавания?
Тем, кому нужна оцифровка и распознавание вне шаблона, нужно понимать, что решений для типовых документов на внутреннем рынке достаточно много. Среди производителей - как молодые инновационные компании, так и опытные ИТ разработчики других систем (1С, ЭДО и др.), которые заинтересованы, чтобы встроить системы распознавания в собственные продукты. Думаю, что в нынешних условиях они подтянут качество OCR-движков в своих продуктах и закроют потребность рынка в распознавании шаблонных форм достаточно быстро.
В госсекторе, где шаблонное распознавание применимо в меньшей степени, сценарий будет другой. Готовых продуктов в нише цифровых помощников не было и нет: здесь нужны другие системы, которые работают на базе технологий искусственного интеллекта и умеют программными методами распознавать смысловые сущности в текстах - например, автоматизировать проверки по договорам и доверенностям при регистрации сделок с недвижимостью. В этой нише есть несколько российских аналогов. Отечественные разработчики таких систем с самого начала развивали свои решения с прицелом на обработку неформализованных документов, в том числе рукописных текстов и чертежей. ABBYY тоже в свое время приступила к разработке ИИ-систем распознавания и, наверное, могла бы рассчитывать на успех в этой нише, но в итоге решила сосредоточиться на зарубежных продажах.
Как действовать потенциальным пользователям? Решение необходимо подбирать под задачу. Перечень отечественных сервисов и систем оцифровки на базе ИИ-технологий лучше изучать в архиве гостендеров по словам "цифровой помощник", "системы распознавания" и "искусственный интеллект". Там можно найти российские компании, которые имеют собственные платформы на базе ИИ и могут создавать системы в контуре заказчика. Они также берут на себя задачу разметки данных, обучения нейросетевых комплексов с последующим анализом качества их работы, дообучением и верификацией неуверенно распознанных объектов.