Ассоциация больших данных и Сбербанк разработали предварительный проект национального стандарта синтеза данных. Он должен повысить доступность, безопасность и качество данных для развития искусственного интеллекта в России.
© ComNews
16.01.2025

ПАО "Сбербанк" сообщило, что совместно с Ассоциацией больших данных (АБД) разработало предварительный проект национального стандарта синтеза данных. Согласно сообщению, стандарт должен описать технологию, по которой будут создаваться "конфиденциальные синтетические данные для развития технологий искусственного интеллекта (ИИ)".

"Соблюдать приватность необходимо на всех этапах процесса синтезирования, который основан на методе дифференциальной приватности. В документе приведены математические доказательства того, что при выполнении рекомендаций стандарта можно синтезировать данные без риска нарушения конфиденциальности. Фактически безопасность обеспечивается через поиск оптимального соотношения между защитой конфиденциальности и качеством получаемых датасетов", - говорится в сообщении.

https://www.comnews.ru/content/236938/2024-12-19/2024-w51/1008/sintetic…

По словам старшего вице-президента, руководителя блока "Технологии" Сбербанка Кирилла Меньшова, стандарт должен создать условия для дальнейшего развития сферы ИИ в России. Он отметил, что исследователи испытывают нехватку доступных данных и это становится крупным препятствием для внедрения ИИ-технологий в различные отрасли экономики. По его мнению, синтетические данные сыграют большую роль в развитие искусственного интеллекта.

Президент АБД Анна Серебряникова отметила, что новый национальный стандарт обеспечит прозрачность процесса синтезирования, надежность архитектуры и определит критерии качества данных. По ее словам, синтетические данные становятся реальной альтернативой обезличенным, которые сковывают излишние ограничения регуляторов.

"При соблюдении требований приватности синтетические данные не несут в себе риски и открывают прорывной путь к достижению целей по доступности данных, необходимых для обучения искусственного интеллекта. Надеемся, что с внедрением национального стандарта синтеза данных мы сможем обеспечить такие требования и ввести синтетические данные в широкий оборот в нашей стране", - сказала она.

Представитель пресс-службы АБД рассказал корреспонденту ComNews, что основу предварительного проекта национального стандарта составляют мировой опыт, актуальные наработки и исследования ассоциации в области риск-ориентированного подхода к обработке данных и возможностей нейросетевых технологий. По его словам, в разработке участвуют представители регулятора, научного сообщества и эксперты компаний - участников ассоциации.

"Многие участники АБД уже используют синтетические данные для внутренних задач (тестирования), мы обобщили этот опыт и надеемся, что синтетические данные будут способствовать развитию рынка данных и искусственного интеллекта. Текущая версия документа уже передана на рассмотрение ТК 164, и, согласно процедуре стандартизации, после этапа обсуждения финальная версия будет представлена во II квартале 2025 г. Синтетические данные, по нашему мнению, открывают новые горизонты для повышения доступности и открытости данных, обеспечивая их безопасное использование без угроз для конфиденциальности. Они становятся эффективной альтернативой обезличенным данным и создают новые условия для развития ИИ, что способствует укреплению технологического суверенитета России", - отметил представитель пресс-службы АБД.

Представитель пресс-службы Сбербанка не ответил на вопросы корреспондента ComNews.

https://www.comnews.ru/content/236904/2025-01-09/2025-w02/1008/2025-g-b…

Синтетические данные имитируют настоящие, созданные человеком, но при этом создаются при помощи вычислительных алгоритмов и моделей на основе генеративных ИИ. Они обладают теми же математическими свойствами, что и настоящие, но не содержат информации из них. Компании - разработчики искусственного интеллекта используют их для обучения языковых моделей и тестирования машинного обучения. Синтетических данные являются практически бесконечным источником информации для обучения ИИ, так как разработчик может создавать их в неограниченном объеме. Они могут использоваться для исследований в областях, наполненных конфиденциальной информацией и защищенных регуляторикой, таких как авторское право, здравоохранение, финансы и т.д. Наконец синтетические данные могут снизить уровень предвзятости обучаемых моделей ИИ, противопоставив себя предвзятым формулировкам или мнениям, добытым из общедоступных источников.

Напомним, что ранее, в декабре 2024 г., один из создателей ChatGPT и сооснователей OpenAI Илья Суцкевер сказал, что рост вычислительных мощностей для ИИ-моделей обогнал скорость появления данных и что индустрия нейросетей достигла пика в использовании информации.

https://www.comnews.ru/content/236940/2024-12-19/2024-w51/1008/youtube-…

Новости из связанных рубрик