"Росатом" создал отраслевой реестр датасетов
Концерн "Росэнергоатом" (входит в электроэнергетический дивизион госкорпорации "Росатом"), АО "Консист-ОС" (дочернее общество концерна) и частное учреждение по цифровизации атомной отрасли "Цифрум" (госкорпорация "Росатом") завершили пилотный проект по созданию отраслевой системы по учету и хранению паспортов датасетов.
Датасет – это совокупность данных в терминах задач машинного обучения и их описания. Паспорт датасета содержит информацию о его содержании, владельце и цели использования, а также позволяет оценить его применимость для решения задач потребителя, определить способы загрузки и варианты последующего использования.
Проект реализован в рамках программы "Росатома" "Сквозные цифровые технологии и управление данными" и направлен на создание единой платформы для отраслевого реестра датасетов, моделей машинного обучения, методологий решения типовых задач в области искусственного интеллекта.
В базу уже загружены 12 пилотных паспортов датасетов, созданных "Росэнергоатомом" и компанией "Цифрум" в рамках проектов с использованием искусственного интеллекта и применением машинного обучения. Система проходит процедуру регистрации в Реестре российского ПО.
"Искусственный интеллект и, в частности, машинное обучение являются сейчас активно развивающимися технологиями в отрасли. На текущий момент уже накопился большой объем датасетов, которые используются для обучения искусственного интеллекта в рамках различных проектов. В связи с этим перед "Росэнергоатомом" и отраслью в целом встал вопрос создания их реестра и реализации возможности повторного использования уже имеющихся датасетов в других проектах. Это позволит существенно сократить время и трудозатраты на подготовку данных для создания новых моделей", - прокомментировал Олег Шальнов, директор департамента управления ИТ-проектами и интеграцией АО "Концерн Росэнергоатом".
Каждый датасет размещается в реестре вместе с подробным описанием его содержания, назначения и истории использования. Эта информация позволяет оценить потенциальную пригодность конкретного набора данных для решения других задач и варианты его последующего использования. Наличие реестра также позволяет в случае сбоев в работе систем с искусственным интеллектом легко найти исходные данные, на которых обучалась данная нейросеть, провести анализ и внести необходимые корректировки в модель.
В свою очередь, руководитель Центра цифровых технологий концерна "Росэнергоатом" Константин Кудашев подчеркнул, что созданная система также решает важную задачу безопасного использования искусственного интеллекта на предприятиях отрасли. "Безопасность и эффективность систем искусственного интеллекта напрямую зависит от качества данных, на которых строятся и тренируются модели машинного обучения. Все наши датасеты являются верифицированными, апробованными на реальных моделях и работающими в промышленных системах, что позволяет создавать более точные модели. Само же их хранилище, размещенное в нашем опорном ЦОД, обеспечивает сохранность, защищенность и прозрачное использование всех наборов данных", - отметил он.
Создание реестра датасетов является одним из первых проектов, реализованных "Цифрумом" в направлении развития цифровых технологий и культуры использования данных в атомной отрасли. "Разработанный продукт позволяет отслеживать использование и полезность данных, определять ответственность и учитывать вклад людей, занимающихся развитием сферы искусственного интеллекта, в результат развития отрасли. Проект продемонстрировал, что при использовании цифровых технологий и объединении усилий участников данные в отрасли представляют собой универсальный актив, способный стать "топливом" как для уже существующих, так и для проектируемых бизнес-процессов", - сказал заместитель генерального директора по сквозным цифровым технологиям и управлению данными ЧУ "Цифрум" Антон Запрягаев.