Ассоциация больших данных и Сбербанк разработают стандарт синтеза данных

Ассоциация больших данных и Сбербанк разработали предварительный проект национального стандарта синтеза данных. Он должен повысить доступность, безопасность и качество данных для развития искусственного интеллекта в России.

Иван
Иванов

16.01.2025

ПАО "Сбербанк" сообщило, что совместно с Ассоциацией больших данных (АБД) разработало предварительный проект национального стандарта синтеза данных. Согласно сообщению, стандарт должен описать технологию, по которой будут создаваться "конфиденциальные синтетические данные для развития технологий искусственного интеллекта (ИИ)".

"Соблюдать приватность необходимо на всех этапах процесса синтезирования, который основан на методе дифференциальной приватности. В документе приведены математические доказательства того, что при выполнении рекомендаций стандарта можно синтезировать данные без риска нарушения конфиденциальности. Фактически безопасность обеспечивается через поиск оптимального соотношения между защитой конфиденциальности и качеством получаемых датасетов", - говорится в сообщении.

https://www.comnews.ru/content/236938/2024-12-19/2024-w51/1008/sintetic…

По словам старшего вице-президента, руководителя блока "Технологии" Сбербанка Кирилла Меньшова, стандарт должен создать условия для дальнейшего развития сферы ИИ в России. Он отметил, что исследователи испытывают нехватку доступных данных и это становится крупным препятствием для внедрения ИИ-технологий в различные отрасли экономики. По его мнению, синтетические данные сыграют большую роль в развитие искусственного интеллекта.

Президент АБД Анна Серебряникова отметила, что новый национальный стандарт обеспечит прозрачность процесса синтезирования, надежность архитектуры и определит критерии качества данных. По ее словам, синтетические данные становятся реальной альтернативой обезличенным, которые сковывают излишние ограничения регуляторов.

"При соблюдении требований приватности синтетические данные не несут в себе риски и открывают прорывной путь к достижению целей по доступности данных, необходимых для обучения искусственного интеллекта. Надеемся, что с внедрением национального стандарта синтеза данных мы сможем обеспечить такие требования и ввести синтетические данные в широкий оборот в нашей стране", - сказала она.

Представитель пресс-службы АБД рассказал корреспонденту ComNews, что основу предварительного проекта национального стандарта составляют мировой опыт, актуальные наработки и исследования ассоциации в области риск-ориентированного подхода к обработке данных и возможностей нейросетевых технологий. По его словам, в разработке участвуют представители регулятора, научного сообщества и эксперты компаний - участников ассоциации.

"Многие участники АБД уже используют синтетические данные для внутренних задач (тестирования), мы обобщили этот опыт и надеемся, что синтетические данные будут способствовать развитию рынка данных и искусственного интеллекта. Текущая версия документа уже передана на рассмотрение ТК 164, и, согласно процедуре стандартизации, после этапа обсуждения финальная версия будет представлена во II квартале 2025 г. Синтетические данные, по нашему мнению, открывают новые горизонты для повышения доступности и открытости данных, обеспечивая их безопасное использование без угроз для конфиденциальности. Они становятся эффективной альтернативой обезличенным данным и создают новые условия для развития ИИ, что способствует укреплению технологического суверенитета России", - отметил представитель пресс-службы АБД.

Представитель пресс-службы Сбербанка не ответил на вопросы корреспондента ComNews.

https://www.comnews.ru/content/236904/2025-01-09/2025-w02/1008/2025-g-b…

Синтетические данные имитируют настоящие, созданные человеком, но при этом создаются при помощи вычислительных алгоритмов и моделей на основе генеративных ИИ. Они обладают теми же математическими свойствами, что и настоящие, но не содержат информации из них. Компании - разработчики искусственного интеллекта используют их для обучения языковых моделей и тестирования машинного обучения. Синтетических данные являются практически бесконечным источником информации для обучения ИИ, так как разработчик может создавать их в неограниченном объеме. Они могут использоваться для исследований в областях, наполненных конфиденциальной информацией и защищенных регуляторикой, таких как авторское право, здравоохранение, финансы и т.д. Наконец синтетические данные могут снизить уровень предвзятости обучаемых моделей ИИ, противопоставив себя предвзятым формулировкам или мнениям, добытым из общедоступных источников.

Напомним, что ранее, в декабре 2024 г., один из создателей ChatGPT и сооснователей OpenAI Илья Суцкевер сказал, что рост вычислительных мощностей для ИИ-моделей обогнал скорость появления данных и что индустрия нейросетей достигла пика в использовании информации.

https://www.comnews.ru/content/236940/2024-12-19/2024-w51/1008/youtube-…

Ассоциация больших данных и Сбербанк разработают стандарт синтеза данных

Новости из связанных рубрик

Искусственный интеллект и сквозные технологии

42% российских компаний планируют расширять ИТ-инфраструктуру в 2025 г.

62% российских ИТ-специалистов доверяют искусственному интеллекту как напарнику

UserGate расширяет экосистему UserGate SUMMA в ответ на запросы рынка: теперь в ее периметре не только технологии и продукты, но ИБ услуги и образовательные проекты

Сбер разработал и опубликовал модель для кибербезопасности ИИ

Corpsoft24 автоматизировала непрерывное химическое производство ГК "ГалоПолимер"

Качество цилиндрических слитков "Русала" перейдет под контроль ИИ

2ГИС "оживил" общественный транспорт

В интернет-банке "Альфа-Бизнес" появился функционал холдинга

Как превратить стройку из хаоса в цифровой процесс

Человечество на распутИИ

42% российских компаний планируют расширять ИТ-инфраструктуру в 2025 г.

62% российских ИТ-специалистов доверяют искусственному интеллекту как напарнику

Сотрудники компаний остаются основной мишенью киберпреступников

OpenIDE выйдет на российский рынок

Музыкальный стартап YOURTUNES привлек 20 млн руб. от KAMA FLOW и Malina VC