Разработчики получат госданные
"Минцифры России разработает концепцию доступа к госданным. Возможность создать единую фабрику данных делает государство уникальным оператором, который имеет в своем распоряжении практически неограниченное количество датасетов и их комбинаций. Такие базы представляют интерес для бизнеса, который выстраивает маркетинговые коммуникации и планы развития, опираясь на аналитику датасетов", - сообщил вице-премьер правительства Российской Федерации Дмитрий Чернышенко.
В концепции регулирования доступа разработчиков к наборам госданных фигурирует несколько типов датасетов. Они разделены по признаку конфиденциальности - датасеты ограниченного доступа и общедоступные, а также по принадлежности оператору - ведомственные, межведомственные.
Директор по направлению "Искусственный интеллект", директор по развитию АНО "Цифровая экономика" Алексей Сидорюк подтвердил, что АНО "Цифровая экономика" работает совместно с Минцифры России в рамках реализации национальной программы "Цифровая экономика", а также по другим направлениям, включая отраслевые и региональные. "Есть ряд вопросов, которые требуют дальнейшей проработки - к самой модели, к вовлечению субъектов РФ, к перечню НПА и др. Мы договорились о проведении дополнительных экспертных сессий для проработки озвученных вопросов. При этом само создание подобной концепции - большой шаг для отечественного рынка ИИ", - отмечает Алексей Сидорюк.
"На рассмотрение рабочей группы документ поступит в конце мая - начале июня. После чего с заключением участников рабочей группы будет отправлен в правительственную комиссию. Основные разделы - порядок доступа к данным (общедоступные данные и данные ограниченного доступа), перечень нормативно-правовой базы для изменения, дорожная карта по реализации", - поясняет Алексей Сидорюк.
"Общедоступные датасеты будут доступны всем разработчикам искусственного интеллекта (ИИ). Ограничения коснутся компаний из других юрисдикций в части данных ограниченного доступа. Порядок доступа к таким данным будет дополнительно согласован совместно с регуляторами. В текущей концепции могут быть предоставлены любые датасеты для разработки ИИ, от медицинских обследований и поставленных по ним диагнозов до уровня цен в субъектах РФ и состава почвы для сельскохозяйственных посевов. Для датасетов, которые будут создаваться вручную под потребности бизнеса, планируется ввести госпошлину за разметку и хранение данных. Вопросы хранения государственных датасетов и создания оператора требуют дополнительной проработки и обсуждения", - отмечает Алексей Сидорюк.
Над разработкой единых принципов доступа к государственным датасетам Минцифры России работает совместно с Минэком в рамках реализации федерального проекта "Искусственный интеллект" нацпрограммы "Цифровая экономика".
Заместитель генерального директора Softline по работе с национальными проектами Андрей Шолохов подчеркнул, что в разных странах мира, включая Россию, уже давно существуют практики, когда государство пользуется данными коммерческих компаний (телеком-операторов, агрегаторов такси, социальных сетей) и когда коммерческие компании и граждане пользуются государственными данными через посредников (СБИС, "Гарант", "Консультант" и т.д.).
"Иногда некоторые государственные данные нельзя передать в широкое пользование. В таких случаях в мире часто применяются такие инструменты, как регуляторные песочницы. В России также решили пойти по этому пути. Особенностью работы регуляторных песочниц является требование, что компания - участник песочницы должна предоставить план, как она собирается использовать эти данные. Если регулятор согласен на данный вид использования, то государственные данные компании предоставляются", - отмечает Андрей Шолохов.
"В рамках федерального проекта "Искусственный интеллект" министерства и ведомства должны предоставить некие наборы данных для использования как самим государством, так и компаниями - участниками песочниц. Процесс составлен таким образом, что министерства должны сами определять структуру и содержание наборов данных, еще до того, как пользователи данных, как среди чиновников, так и среди коммерческих компаний, сформулируют, какие данные им нужны и с какой целью. Скорее всего, эта особенность станет существенным препятствием для полноценного использования государственных данных коммерческими компаниями", - считает Андрей Шолохов.
Заместитель генерального директора по науке и развитию компании ИВК Валерий Андреев уверен, что инициатива разработки концепции регулирования доступа разработчиков к наборам госданных понятна и правильна: "Работа с живыми госданными особенно ценна, поскольку дает возможность увидеть реальную картину. Это повышает достоверность исходной информации, точность и скорость анализа и принятия управленческих решений. Но регулирование доступа к таким данным требует тщательнейшей проработки - причем не только технической, но и организационной".
"Прежде всего необходимо правильно подготавливать госданные для передачи их будущему единому оператору, который упоминается в поручении вице-премьера Дмитрия Чернышенко. Для этого потребуется основательная, кропотливая работа по выравниванию классификаторов. Сегодня каждое ведомство структурирует данные в соответствии с собственными классификаторами. Это не позволяют сразу однозначно идентифицировать номенклатурные позиции, что делает невозможным анализ данных", - отмечает Валерий Андреев.
По мнению Валерия Андреева, структура данных, которыми оперируют разные ведомства, должна быть сравнима - иначе единый оператор не сможет работать с ними. Он отмечает, что любой системный интегратор, выполнявший интеграционные проекты, знает на собственном опыте, что привести "к единому знаменателю" классификаторы - это задача колоссальной сложности. Обнадеживает, что такой опыт уже частично наработан при создании СМЭВ, государственной системы межведомственного электронного взаимодействия.
"Обязательное условие - определить уровни конфиденциальности данных и обеспечить к ним защищенный доступ. Площадка для работы с данными и средства ИИ должны быть доверенными, а каналы связи - надежно защищенными. Вероятно, было бы слишком опрометчивым решением дать организации, которой будут делегированы полномочия оператора, доступ ко всем реальным живым данным. Скорее всего, алгоритм будет предполагать предварительную подготовку ведомствами датасетов, наборов обезличенных данных. Они станут своего рода сырьем для "фабрики данных". Предстоит разработать единые стандарты, положения и нормативные акты подготовки данных и их последующей обработки", - отмечает Валерий Андреев.
"Вся эта работа займет не один год. Некоторая проблема видится в том, что мы подходим к решению задачи с позиций сегодняшнего уровня развития технологий. Но динамика развития ИТ огромна, качественные сдвиги в способах обработки информации происходят очень часто. Не исключено, например, что в ближайшие годы появятся квантовые компьютеры, которые откроют совершенно новые возможности в скорости и точности работы с данными. Поэтому создаваемая система работы с госданными должна изначально строиться на принципах четкой организации межведомственного взаимодействия и на принципах открытости инновационным технологиям", - подчеркивает Валерий Андреев.
Руководитель отдела аналитики и спецпроектов ГК InfoWatch Андрей Арсентьев отмечает, что желание государства как главного оператора больших данных обеспечить максимальный маркетинговый эффект от их использования вполне логично в цифровую эпоху, однако возникают опасения за безопасность персональных данных российских граждан.
"Ценность каждой записи персональных данных регулярно растет, и любое крупное хранилище информации становится сокровищницей для нарушителей. Предстоит разработать строгие принципы доступа к различным наборам государственной "фабрики данных", с возможностью контроля этого доступа и защитой от несанкционированного копирования конфиденциальной информации", - подчеркивает Андрей Арсентьев.