Мария Андреева
© ComNews
09.08.2017

ВТБ24 создает новую платформу Data Research Platform для хранения и исследования клиентских данных на основе Data Lake. В ВТБ24 пояснили, что для работы с клиентской информацией будут использоваться средства глубинного анализа Data Mining. По предварительной оценке банка, модели на основе данных о поведении клиентов способны принести банку ежегодно до 1,2 млрд руб. дополнительного дохода.

О запуске новой платформы корреспонденту ComNews сообщил представитель ВТБ24. По его словам, платформа Data Research Platform для хранения и исследования клиентских данных на основе Data Lake позволяет банку детально анализировать клиентское поведение. "В ней аккумулируется абсолютно вся информация о заемщиках, которая в дальнейшем используется в работе заинтересованных банковских систем. Получаемые в результате исследований прогнозы поведения позволят формировать лучшие кредитные условия и индивидуальные процентные ставки, основанные на оценке риска по кредитному продукту", - отметили в пресс-службе ВТБ24.

По предварительной оценке, модели на основе данных о поведении клиентов способны принести банку ежегодно до 1,2 млрд руб. дополнительного дохода и дополнительных продаж на сумму 30 млрд руб.

В банке пояснили, что поставленная задача в мировой практике реализуется через построение Data Lake ("озера данных" - англ.) и создание на его основе исследовательской платформы обработки данных, которые загружаются на нее без каких-либо преобразований. Для работы с клиентской информацией будут использоваться средства глубинного анализа Data Mining.

Кроме того, в банке добавили, что Data Lake представляет собой термин, описывающий любые крупные объемы данных. "Фактически это хранилище, в котором находится огромный объем сырых данных в их первоначальном формате до тех пор, пока они не будут использованы", - добавили в ВТБ24.

Представитель банка рассказал, что в настоящий момент ВТБ24 завершил первый этап работ по настройке, пилотированию механизмов, подходов и технологий и, как итог, развернул платформу Data Researh Platform.

"Сейчас она обеспечивает работу пользователей профиля Data Architect и Data Scientist с полной безопасностью доступа к данным. Также развернута тестовая среда, обеспечена катастрофоустойчивость решения. Следующим этапом станет реализация улучшенных моделей с учетом обогащения сырыми данными и выход на запланированный бизнес-эффект",  - отметили в пресс-службе банка.

По данным ВТБ24, работы в рамках этого проекта начались летом 2016 г., внедрение платформы было продиктовано необходимостью использования высокопроизводительного решения для процессов моделирования - разработки и обучения моделей, сценарного анализа. В задачи первого этапа входила отработка технологической среды для моделирования (включая отработку механизмов обновления всего установленного ПО и расширение кластера Hadoop), отработка подходов к работе пользователей с учетом требований к разграничению доступа к данным, интеграция с существующим хранилищем данных.

"Платформа базируется на программно-аппаратном решении Oracle BigData Appliance, основные аналитические инструменты - SAS HPDM, SAS EG, Python. В настоящий момент платформа развернута на 12 узлах BDA, объем - до 288 Тбайт, до конца года платформа будет расширена до 18 узлов", - отметили в ВТБ24.  

По данным банка, поставку оборудования Oracle BDA осуществила компания "Открытые технологии" в рамках тендера, интеграцию с корпоративным хранилищем данных (КХД) обеспечивал действующий партнер по развитию КХД - GlowByte Consulting, настройку и сопряжение всего комплекса инструментов и технологий выполняла смешанная команда из числа специалистов банка, GlowByte Consulting и представителей вендоров - SAS и Oracle.

"В 2016 г. мы реализовали крупный проект по обработке и анализу клиентской информации. Результат его внедрения - существенное увеличение основных финансовых показателей ВТБ24 за счет улучшения клиентских предложений. И система анализирует только 60% всех имеющихся в банке данных. При создании Data Researh Platform мы охватываем 100% данных и проверяем наши гипотезы о клиентском поведении и его влиянии на платежеспособность", - прокомментировал член правления ВТБ24 Александр Соколов.

Он подчеркнул, что анализ этой информации позволит максимально снизить риски при кредитовании и улучшить условия банка по кредитным продуктам.

"Создание платформы по анализу клиентских данных с применением Data Lake позволит нам обеспечить не только хранение и обработку огромного массива исторических данных, но и выйти на новый уровень решения задач аналитического CRM (Customer Relationship Management), управления рисками, получить экспертизу в глубинном анализе данных, вырастить собственных ученых и пользователей профилей Data Architect и Data Scientist", - добавил также член правления, директор департамента банковских и информационных технологий ВТБ24 Сергей Русанов.

Опрошенные корреспондентом ComNews Сбербанк и "Почта Банк" вчера не прокомментировали тему по созданию платформы Data Research Platform для хранения и исследования клиентских данных на основе Data Lake.

Говоря о стоимости внедрения платформы Data Research Platform на основе Data Lake, руководитель направления бизнес-аналитики компании "Крок" (ЗАО "КРОК инкорпорейтед") Роман Баранов сказал, что стоимость такого проекта оценить сложно. "Однако можно сказать однозначно, что большая часть затрат уйдет на оплату работы персонала", - отметил Роман Баранов.

По словам эксперта, трудно сказать, модное ли направление Data Lake. "Просто само понятие аналитического CRM переродилось в новое причудливое название, где всем понятные или решенные задачи стараются решать по-новому, за счет агрегации в разы большего количества данных, в том числе внешних данных, при этом сама клиентская аналитика становится действительно более качественной, нежели в классических решениях. Это действительно востребовано, причем не только среди банков, но также в производственном секторе и ретейле", - заметил Роман Баранов.

На взгляд представителя "Крока", решение вряд ли станет массовым в дальнейшем, так как оно требует или больших затрат на создание такой базы и приобретение внешних данных с последующей продажей результатов или большого количества собственных данных (и клиентов). Во втором случае, добавил Роман Баранов, решение окупится за счет обогащения имеющейся информации внешними данными о поведении клиента, будь то посещение сайтов недвижимости или игра на бирже, за счет чего ему можно будет сделать лучшее предложение.

"Однако вовсе не факт, что Data Lake, в его классической концепции, станет оптимальным вариантом решения задачи. Возможно, где-то будет логичнее описать все метаданные, которыми обладает компания, и подумать над тем, есть ли в них ценность, нежели сразу полагаться на возможности математики", - резюмировал Роман Баранов.

В разговоре с корреспондентом ComNews директор компании "ИТ-Град" Дмитрий Гачко отметил, что стоимость создания такой платформы зависит от используемого количества коммерческого программного обеспечения (ПО), зрелости и готовности существующей ИТ-инфраструктуры банка. Дмитрий Гачко отметил, что стоимость работ по внедрению, если осуществляются внешней командой, составит порядка 10 млн руб.

По словам директора "ИТ-Града", Data Lake - это просто термин, обозначающий всю совокупность разрозненных, но имеющих структуру данных из разных информационных систем банка, по которым можно провести аналитику, сделать выводы о клиентской базе, структурировать ее с целью формирования более точных предложений клиентам.

Он добавил, что в данном контексте цель этих технологий - более точная классификация клиентов, что приводит к повышению итоговой конверсии банковских предложений. "Мы осуществляли аналогичную задачу для банка из топ-50, применяя технологии машинного обучения. Думаю, что все, у кого есть крупная клиентская база, используют либо планируют использовать эти технологии, так как подобные проекты быстро себя окупают", - отметил Дмитрий Гачко.