18.01.2023

Покупки в магазинах, серфинг в интернете, информация о балансе и счетах, а также местоположении — человечество генерирует данные с немыслимой скоростью. На их основе компании принимают решения и оптимизируют бизнес-процессы. Как Big Data помогает бизнесу, почему без их анализа нет будущего и как из этого океана информации выбрать то, что действительно нужно, — разбираемся вместе с компанией "Дататех".

Зачем нужны большие данные

В 2020 г человечество произвело 64,2 зеттабайт данных, но сохранило из них только 2%, подсчитали аналитики IDC. По их прогнозам, до 2025 года количество информации будет ежегодно расти на 23%.

"Бизнес уже давно пытается использовать накопленную информацию в своих интересах. Аналитика больших данных позволяет лучше узнать клиентов, чтобы предложить им более кастомизированные сервисы, быстрее улавливать тренды рынка и корректировать бизнес-стратегии", - утверждает Павел Бабурин, директор по стратегическим проектам, "Дататех".

Без аналитики больших данных компании слепы и глухи, они блуждают в сети словно олень по автостраде, метафоричен автор деловых бестселлеров Джеффри Мур. Страшное чувство бесцельного скитания растет, ведь большие данные — это "сырье для деловой активности", добавляет Крейг Манди, старший советник гендиректора Microsoft.

Работа с большими данными — это вопрос выживания для любого бизнеса. Так, компании сегмента FMCG с помощью их анализа прогнозируют потребительский спрос на те или иные товары и выводят на рынок новые продукты, власти — строят "умные города", ритейлеры — планируют промоакции, а маркетплейсы — рекомендуют покупки. Например, интернет-гигант Ozon предлагает клиентам похожие или сопутствующие товары, основываясь на множестве факторов, в том числе, средней конверсии из показа в покупку за последние 60 дней и количестве отзывов.

$215,7 млрд

– объем мирового рынка больших данных и бизнес-аналитики в 2021 году. Этот показатель на 10,1% больше, чем годом ранее, подсчитали эксперты IDC.

Как это работает

Большие данные — это огромный массив разнородной информации. Традиционные базы данных просто не справятся с их сбором, управлением и анализом. В этом компаниям помогают специальные платформы для сбора информации (DMP), а искусственный интеллект (ИИ) позволяет принимать решения в огромном потоке информации, с которой не способен справиться человек. ИИ перехватывает необходимые сведения отовсюду — из истории банковских транзакций, поиска в интернете и даже маршрута навигатора — и затем их анализирует. Порой — в реальном времени, что добавляет быстроты и точности прогнозных решений.

Например, британский Metro Bank отслеживает в приложении данные и шаблоны транзакций клиентов в режиме реального времени. Затем приложение предоставляет персонализированные подсказки для оплаты подписки и предупреждения о необычных расходах. А BNP Paribas и Société Générale рассчитывают с помощью ИИ оптимизировать доходность своих портфелей.

В мировом масштабе банковский сектор — в лидерах по расходам на большие данные и бизнес-аналитику. Внедрение Big Data в этой отрасли, вероятно, ускорила пандемия коронавируса Covid-19, анализирует российский ЦБ. В кризис расходы на инновации традиционно снижаются, но в этом случае оказалось иначе, приводит он данные Банка Англии. Ничего удивительного: переход потребителей в онлайн, желание банков повысить эффективность на фоне низких ставок, широкое использование смартфонов и ноутбуков (и как следствие — стремительный рост генерируемой информации) — все это причины ускоренного внедрения Big Data, а также технологий машинного обучения и искусственного интеллекта для их анализа.

Самый простой пример использования больших данных финансовыми организациями — это оценка кредитоспособности заемщика. Например, китайский WeBank для оценки заемщиков использует сведения из интернет-покупок, активности в социальных сетях и онлайн-играх. Большинство работающих в России банков, опрошенных ЦБ, обрабатывают с использованием технологий больших данных от 90 до 100% розничных кредитных заявок. Некоторые из них анализируют транзакции клиентов для определения кредитных рейтингов корпоративных заемщиков и ИП.

На российском рынке уже появляются решения, способные решать схожие задачи. В рамках форума инновационных финансовых технологий FINOPOLIS 2021/ 2022 осенью этого года компания "Дататех" представила платформу MIRION, которая позволяет исследовать связи клиентов банков с помощью графовой аналитики. Система отслеживает юридические, экономические и бенефициарные взаимодействия, анализирует гипотезы о мошеннических схемах и помогает выявлять подозрительные данные. Благодаря этому финансовые организации могут проводить более качественный скоринг и предотвращать мошеннические операции, что в свою очередь оптимизирует и ускоряет работу с клиентами.

Большие данные позволяют эффективнее собирать просроченную задолженность по кредитам, их применяют в риск-моделировании, информационной безопасности и борьбе с мошенничеством, а также для работы чат-ботов. Например, боты отвечают на стандартные вопросы клиентов, ориентируют их в каталоге услуг, напоминают о том, что нужно погасить кредит. А более продвинутые версии способны даже поддержать диалог. На основе полученных данных банки могут предлагать клиентам новые услуги — мгновенное кредитование или выдачу заранее одобренных кредитов, пишет Банк России.

Применение ИИ дает финансовым организациям возможность обслуживать больше человек, снижать расходы и кредитный риск, резюмируют аналитики McKinsey: это критически важно в условиях конкуренции.

Инновационные инструменты

Для работы с большими данными существуют десятки различных инструментов: от внутренних разработок компаний до платформ с открытым кодом. "Решения, которые предлагает "Дататех" призваны помогать бизнесу упростить цифровую трансформацию, увеличить прибыль за счет грамотного анализа данных и сократить издержки на рутинные задачи", — утверждает Павел Бабурин, директор по стратегическим проектам, "Дататех". Специализация компании — построение корпоративных хранилищ и озер данных и автоматизация аналитики на базе передового программного обеспечения и продуктов Open Source. Технологический базис решений компании — продукты партнера Arenadata, а именно: корпоративная платформа для сбора, хранения и обработки данных Arenadata Enterprise DataPlatform.

"Одна из главных проблем, которая встает перед компаниями, использующими большие данные, состоит в том, что вся информация — разнородная и неструктурированная. Поэтому перед загрузкой в базы ее приходится долго обрабатывать. В итоге работа с Big Data оказывается слишком сложной и дорогой, а часть данных теряется, хотя могла бы принести пользу в будущем. Помочь с этим могут озера данных, которые созданы для быстрой и недорогой работы с большими объемами неструктурированной информации. Подобное направление является одним из сфер деятельности компании "Дататех" Мы работаем с озерами данных, которые представляют единый хаб всех сведений организации и других внешних источников с возможностью работы с аналитическими инструментами в единой среде", — добавляет Павел.

Цифровизация строительства — тренд последнего времени, позволяющий, во-первых, экономить время и ресурсы на проектировании любых объектов, а, во-вторых, избегать ошибок. Это возможность видеть, как объекты впишутся в окружающую среду, оценивать их инвестиционную привлекательность, позволяя в том числе точнее прогнозировать затраты, а для органов власти — даже будущие налоговые поступления. И здесь у "Дататех" есть, чем ответить. Уникальный опыт компании и экспертиза в области ИИ помогли создать единую гео-платформу, объединяющую данные по 200 гео-слоям, что дает возможность решать задачи прогнозирования на качественно новом уровне. Был также разработан собственный алгоритм гео-пространственной кластеризации, который дает возможность сбалансировать географическую близость и значение целевой метрики в каждом квадрате, получить обоснованное количество областей с учетом введённой в графе метрики схожести, оптимизировать метрики и кластеризации с учетом текущей или целевой картины, а также проводить анализ и моделирование метрик/покрытия/признаков.

В последнее время мы наблюдаем, что организации создают целые хабы (центры компетенций) в целях разработки инновационных продуктов, наиболее близко покрывающих запросы бизнеса. И сфера Big Data — одна из наиболее популярных и востребованных. Современные решения позволяют компаниям подобрать и "настроить" сервисы, исходя из конкретных потребностей клиентов. Например, компании может понадобиться платформа для самостоятельного создания и эксплуатации моделей машинного обучения и построения сервисов на их основе. У "Дататех", к слову, есть такая разработка, которая уже зарекомендовала себя на рынке. До появления ML-платформ преимуществами машинного обучения могли пользоваться в основном крупные игроки со своим штатом специалистов, теперь — даже небольшие компании. Они могут формулировать гипотезы, строить алгоритмы и тестировать новые решения. Один из простых примеров использования таких платформ — обучение чат-ботов для ритейла или банковского бизнеса. Но это далеко не предел: искусственный интеллект поможет "распознать" пустые полки в магазине или эмоции покупателей.

Риски работы с Big Data

Несмотря на все перспективы, в работе с большими данными есть и определенные риски. ЦБ, например, перечисляет такие. Big Data — это по сути "черный ящик": данные закладываются в модель, искусственный интеллект проводит анализ и выдает результат, который невозможно перепроверить и интерпретировать. Вот почему крайне важна квалификация сотрудников, работающих в этой сфере. Кроме того, некорректные модели могут привести к массовой ошибочной оценке, нарушению конкуренции и утечке данных.

Риск и в том, что поставщики услуг в области работы с большими данными могут выпасть из регуляторного поля, что приведет к появлению "серых" областей.

Другой пласт проблем связан с внедрением инструментов для работы с большими данными. Например, при построении архитектуры для Big Data компании могут столкнуться со сложностями во взаимодействии разных технологий и распределении информации. В решениях нередко используется распараллеливание ее обработки, однако часто данные оказываются распределены неравномерно. Отсюда — неоптимально выстроенные процессы.

Решить эту проблему помогут соответствующие стандарты. Два из них — о об эталонной архитектуре больших данных и о требованиях к содержанию и оформлению технического задания в области Big Data — Роспатент утвердил в прошлом году.

Тогда же стало известно о планах Минцифры создать госоператора больших данных, который бы за плату предоставлял Big Data министерств и ведомств коммерческим разработчикам ИИ. Внимание государства не удивительно: только российской экономике технологии больших данных принесут 4,2 трлн руб. к 2024 г.