ContentCapture научили распознавать рукописный русский текст
Функция распознавания русского рукописного текста появилась в новой версии платформы для интеллектуальной обработки информации ContentCapture от Content AI.
Программа с новой функциональностью способна с высокой точностью распознавать в документах заполненные от руки поля на русском языке. Ранее ContentCapture могла распознавать только рукопечатный текст, где каждая буква прописывалась в отдельных полях заполняемой формы, например, анкеты или опроса. В новом релизе эти возможности объединены: система автоматически определяет, как написан текст, и распознает символы.
Важное технологическое новшество – способность распознавать фразы, написанные без отрыва ручки от бумаги. Это одна из самых сложных задач, с которой ранее OCR-системы справлялись менее успешно. Кроме того, в новом выпуске существенно оптимизировано качество распознавания рукописного английского текста.
В ходе тестирования новой функциональности ContentCapture подтверждена точность распознавания данных в документах определенного типа в диапазоне 85-95%: речь идёт о паспортах и других документах, удостоверяющих личность, тестовых формах, служебных записках, подготовленных в свободном стиле.
В основе технологии распознавания русского рукописного текста лежат собственные разработки Content AI в области нейронных сетей. Инновационные методики впервые применены для реализации этой функциональности.
В текущем релизе распознавание русского рукописного текста доступно в версии ContentCapture для Windows. До конца года планируется выпуск кросс-платформенной версии с возможностью использования на операционных системах на базе Linux.
В числе других обновлений релиза ContentCapture – редизайн интерфейса веб-станций. Он стал более легким и современным. При этом внутренняя структура продукта не претерпела значительных изменений, поэтому уже знакомые с платформой пользователи смогут приступить к работе без необходимости повторного обучения.
"Качество распознавания в рамках данной задачи сильно зависит от разборчивости почерка и вида документа. Во внутренних тестах мы ориентировались на лучшие образцы технологий, имеющиеся на российском рынке. По ряду сценариев распознавание русского рукописного текста в ContentCapture демонстрирует самые высокие показатели среди всех протестированных продуктов, – уточнил технический директор Content AI Иван Волков. – Мы готовы индивидуально обучать и настраивать систему для более точной обработки конкретного, даже самого редкого, типа документа, если у заказчиков будет такая необходимость".
"Сценарии применения технологии распознавания рукописного текста востребованы в различных сферах, в которых ведется работа с документами, заполненными от руки, например в финансовых организациях и государственных структурах. Через специалистов этих ведомств ежедневно проходят десятки и сотни документов с элементами рукописного текста – паспортов, свидетельств, анкет, заявлений. Ввод данных в информационные системы зачастую осуществляется вручную. Автоматическая обработка и распознавание не только значительно повысит скорость работы сотрудников, но и сократит количество ошибок, которые могут быть допущены при ручном переносе данных", – отметила генеральный директор Content AI Светлана Дергачева.