Данные всех корпораций - объединяйтесь!
Специалисты совместного предприятия ВТБ и "Ростелекома" - "Платформы больших данных" протестировали новую технологию совместных конфиденциальных вычислений (Multi-partial computations, MPC). Технология позволяет компаниям совместно работать с массивами данных для улучшения качества сервисов, повышения эффективности бизнеса и решения других задач. Особенность технологии MPC - в отсутствии обмена исходными данными между компаниями: это дает возможность пользователям сервиса реализовать подход Data Fusion - он заключается в объединении данных, слиянии или переносе алгоритмов из одной области машинного обучения в другую, а также в синергии процессов в машинном обучении. Эксперты считают, что данная технология способна изменить рынок Big Data и искусственного интеллекта.
Технология Multi-partial computations протестирована при участии компании - разработчика сервисов фильтрации и анализа трафика Ubic. Совместные конфиденциальные вычисления позволяют создавать модели машинного обучения, которые построены на объединенных данных различных компаний. Каждая из сторон разделяет информацию и передает только тот объём защищённых данных, на которых можно строить модели. При этом информацию для получения первичных данных расшифровать невозможно. Такая технология позволяет разрабатывать сервисы на базе различных источников и поможет обогатить компетенции и экспертизу различных направлений, от розничной торговли до страхового бизнеса.
Напомним, что "Платформа больших данных" (ПБД), совместное предприятие ВТБ и "Ростелекома", создана в 2020 г. Компания разрабатывает инструменты для бизнеса на основе Big Data: сервисы персонализации, геопространственного анализа, планирования продаж, рекламные платформы, а также развивает ИТ-инфраструктуру. "Платформа больших данных" планирует в течение трех лет занять лидирующие позиции на рынке больших данных в России.
"Безопасность данных клиентов - приоритет "Платформы больших данных", новая технология позволяет вывести работу c Big Data и защищенность данных на новый уровень. Благодаря MPC, мы можем работать с объединенными массивами информации для совершенствования продуктов, сервисов и бизнес-процессов. Объединение уникальных массивов обезличенных данных, технологий и компетенций, а также применение подхода Data Fusion позволят "Платформе больших данных" достичь лидерства на рынке Big Data", - отметил старший вице-президент, руководитель департамента анализа данных и моделирования ВТБ Максим Коновалихин.
По словам вице-президента по развитию бизнеса "Ростелекома" Александра Айвазова, объединение данных разных компаний дает существенный синергетический эффект, но на пути интеграции данных множество препятствий - процессуальных, технологических и нормативных. "Технология MPC позволяет оптимально и безопасно преодолевать эти ограничения. Она увеличивает гибкость в развитии продуктов, формирует новый масштаб анализируемой среды, повышает точность вычислений и, соответственно, на выходе дает более качественный результат для заказчика. Все то, что ранее было доступно только при высоких ресурсных затратах, а иногда и вовсе закрыто, теперь будет внедряться в бизнес-процессы максимально эффективно и быстро", - подчеркнул Александр Айвазов.
"Наша ключевая задача - помочь самым разным компаниям внедрить у себя передовые технологии работы с большими данными. Технология MPC позволяет просто и безопасно обогатить внутреннюю экспертизу самыми актуальными рыночными тенденциями и при этом можно будет сохранить свои сведения закрытыми для остальных. Для многих компаний, которые ранее только думали о том, как построить платформы обогащения данных, это упиралось в огромные инвестиции и прогнозирование дальнейшего использования этой инфраструктуры. Решение на базе технологии MPC поможет решить эти вопросы", - рассказал генеральный директор "Платформы больших данных" Алексей Каштанов.
В пресс-службе "Платформы больших данных" сообщили, что технология конфиденциальных вычислений должна существенно ускорить обмен данными и повысить качество сервисов для клиентов. "Ее особенность - в отсутствии обмена исходными данными между компаниями, возможности вывести работу c Big Data и защищенность данных на новый уровень. В перспективе она может применяться в самых разных направлениях - от финансового сегмента до ретейла и маркетплейсов. Интерес к технологии уже сегодня есть со стороны каждого из этих сегментов", - рассказал представитель пресс-службы "Платформы больших данных".
Директор по продуктовой стратегии Группы Т1 Сергей Иванов подчеркивает, что подавляющее большинство отраслевых лидеров любой индустрии уже больше половины своих бизнес-сервисов и услуг строят на обработке больших массивов собственных данных о клиентах. "Так происходит и в банкинге, и в ретейле, и в других растущих отраслях. Конкурентное преимущество следующего витка развития data-driven-бизнеса лежит в области использования внешних источников данных. Но отсутствие регулирования в этой области и высокие риски в области информационной безопасности не дают даже компаниям одной экосистемы реализовать подобный потенциал. Кроме того, компании, которые думали, как построить платформы обогащения данных, всегда упирались в необходимость большого объема инвестиций и прогнозирование дальнейшего использования этой инфраструктуры. Multi-partial computations является той технологией, которая потенциально может позволить решать эти задачи за счет отсутствия обмена исходными данными между компаниями и дает возможность полностью реализовать подход Data Fusion", - отметил Сергей Иванов.
По его словам, применение подобные технологии в зрелых data-driven-компаниях, особенно имеющих собственную бизнес-экосистему, может не только решить проблему с обменом данных, но и дать сильнейшее конкурентное преимущество в борьбе за клиента.
"Поскольку мы находимся в самом начале формирующегося тренда, говорить о массовом практическом применении технологии пока рано. Впереди еще масса "развилок", которые еще только предстоит пройти - процессуальных, технологических и нормативных. Как только технология станет хотя бы условно промышленной, массовое использование в компаниях вертикально интегрированного бизнеса ей обеспечено", - считает Сергей Иванов.
Партнер Лиги цифровой экономики, директор практики Big Data Юрий Колбасин убежден, что технологии MPC очень перспективны, так как все передовые компании нацелены на создание адресных предложений для клиента, получение знаний о своем клиенте, запуск новых продуктов и увеличение доли рынка. Для этого нужна глубокая аналитика, которая позволит определить поведенческие признаки и склонности клиентов. Чтобы проводить такую аналитику, своих данных, по мнению Юрия Колбасина, недостаточно и необходимо получить данные по клиенту из других источников, взглянуть на него под другим углом. Но у других компаний не так просто получить эту информацию, есть закон о защите персональных данных - запрещено обмениваться персонифицированными данными. "Вот здесь на помощь и приходит технология MPC. Владельцы информации из различных индустрий - банков, телекома, ретейла - вносят в единое инфопространство свою частицу знаний о клиенте. И все могут этим пользоваться, запускать различные математические модели и проверять свои гипотезы. При этом нет передачи персонифицированной информации. Ключевыми потребителями данной технологии будут банки, так как им интересна информация, которая есть у телеком-операторов, то же самое можно сказать и про ретейл. Не надо забывать и про государственные службы, думаю, они также будут активными потребителями", - объясняет Юрий Колбасин.
По его оценке, рынок Big Data очень разнообразен. "По одному из своих определений, Big Data - это вариативные данные. В настоящий момент многие компании научились сохранять и обрабатывать свои данные, но монетизировать их умеют далеко не все. Будущее за кросс-бизнесовыми аналитическими решениями, которые позволят интегрировать данные из различных индустрий, и все игроки рынка смогут работать с этим массивом информации и создавать новые качественные продукты. А технологии MPC позволят сделать все это безопасным, без утечек персональной информации", - говорит Юрий Колбасин.
Исполнительный директор Sibling Михаил Шкляр соглашается, что такая технология перспективна и вполне может применяться в коммерческих целях. Но, по его мнению, это скорее "взгляд в будущее", так как использование этого решения требует определенной технической грамотности, и поэтому сейчас важна простота подачи и объяснение целесообразности его повсеместного использования. "Применяться такая технология может во многих отраслях, в том числе в ретейле, страховании и банковском секторе, а также в госструктурах. В других странах это решение успешно применяется уже сейчас. В России эта сфера развивается, и в целом все, что связано с Big Data, будет использоваться все шире. Но так как это новые технологии, причем непростые для участников рынка, на внедрение потребуется определенное время. К перспективам применения этих технологий относится и машинное обучение, и анализ данных, и алгоритмы, и искусственный интеллект. Причем чем больше будет развиваться Big Data, тем больше в этой сфере будет применяться и искусственный интеллект, так как это напрямую влияет на эффективность таких платформ", - отмечает Михаил Шкляр.
Руководитель отдела анализа данных и машинного обучения Crosstech Solutions Group Роман Титов отмечает, что каждая компания уже давно осознала ценность работы с данными и построила свои инфраструктуры для хранения и обработки этих данных, научилась строить различные модели машинного обучения для решения прикладных задач. "Но с развитием технологий и достижением пороговой точности моделей машинного обучения встает новый вопрос - как увеличить эту точность, если наращивание мощностей и обогащение новыми "однотипными" данными уже не помогают? Для этого необходим обмен данными между компаниями. Чтобы это реализовать необходимо готовить специальную инфраструктуру, подписывать NDA, обезличивать данные, заботиться о безопасном обмене данными и многое другое. При увеличении количества данных с помощью других компаний этот процесс превращается в бесконечную череду событий. Каждая компания выставляет свои требования для работы с их данными, поэтому необходимы инструменты/технологии, которые решат все эти задачи", - объясняет Роман Титов.
Он отмечает, что одной из таких технологий является MPC (Multi-partial computations). В ее преимущества, по его оценке, входит то, что она уже решает все вышеперечисленные проблемы самостоятельно. "Нет необходимости тратить свои ресурсы не проработку возможности обмена данными, а можно сосредоточиться на улучшении качества моделей за счёт использования разносторонних данных. Благодаря этому, качество услуг может заметно улучшиться. Но не стоит забывать о специфике данных каждой компании. Не все данные могут помочь в этом улучшении, ведь каждая компания "готовит" их под себя и под свои задачи, и не зная, как эти данные получаются, как они предобработаны, как связаны между собой, можно только ухудшить работу модели. Также у многих компаний есть свой SLA, в который они должны укладываться, а наличие централизованного хранилища с общим доступом может стать помехой для его выполнения", - рассказывает Роман Титов.
По его словам, создание такого хранилища данных также может позволить решить задачи, которые раньше не могли быть решены компаниями в силу недоступности определенных данных. Но не стоит, по мнению Романа Титова, забывать об опасности различного рода атак. "А в случае централизованного доступа к данным различных компаний, пусть и обезличенным, они становятся "вкусной" приманкой для хакеров, поэтому в первую очередь необходимо подумать о безопасности хранения и передачи этих данных", - подчеркивает Роман Титов.