© ComNews
03.12.2024

АО "Россельхозбанк" (РСХБ) реализовал проект по импортозамещению зарубежного решения корпоративного озера данных на продуктах группы Arenadata — Arenadata Hadoop (ADH) и Picodata. Переход на отечественное программное обеспечение был выполнен в короткие сроки с полным сохранением непрерывности бизнес-процессов.

Проект "Импортозамещение озера данных и создание аналитической платформы оперативных данных" стартовал в апреле 2023 г. с планирования реализации миграции: РСХБ требовалось заменить большой кластер, работавший на ПО американской компании Cloudera. Перед департаментом больших данных РСХБ стояла задача найти отечественное решение, способное полностью заместить функционал ПО Cloudera Data Platform (CDP), широко используемый в аналитическом контуре банка. После сравнительного анализа и технических апробаций различных решений РСХБ выбрал в качестве целевого кластера Arenadata Hadoop (ADH) и Picodata от группы Arenadata. Эти продукты обеспечили необходимый на тот момент набор функциональных возможностей для импортозамещения иностранных решений.

Для перехода на отечественное ПО была разработана методика поэтапной миграции задач с постепенным снижением использования импортного ПО и итерационным добавлением ресурсов в целевой кластер без значимых остановок операционных процессов.

Проект импортозамещения был осуществлён без покупки дополнительного оборудования. Команда использовала метод поэтапной миграции, разделяя существующий кластер и перемещая данные с минимальным снижением производительности.

Поскольку миграция охватывала довольно сложный функционал, по ряду значимых сервисов (Hive, Yarn, Impala и т. д.) в ходе перехода на отечественное ПО были выявлены несоответствия в алгоритмах и особенностях работы по сравнению с тем, как эти сервисы работали в платформе CDP, ввиду того что в CDP по ряду функций программный код достаточно сильно модифицирован и закрыт. Для обхода этих блокирующих проблем был использован большой набор инструментов.

Привлечение консалтинга Arenadata позволило использовать в миграции опыт проектов из смежных отраслей.

Изучение исходного кода как open source решений, так и решений Arenadata с целью стабилизации функций позволило в очередной раз убедиться в необходимости использования подхода с открытым исходным кодом для реализации комплексных решений такого масштаба.

Работа с оптимизациями и форматами помогла узнать много нового о том, какие параметры за что отвечают в настройках сервисов озера данных. При этом решение Arenadata Hadoop позволило это делать, не теряя стандартные функции управления и оркестрации.

Моделирование на внутренних стендах и стендах партнёров позволило обеспечить проверку как на локальных, так и на удалённых стендах значительного количества изменений с целью стабилизации и оценки их влияния.

Так как загрузки в озеро данных и выгрузки из него делаются весьма разнородными решениями (файлы, Airflow, IPC, DEI, Spark и т. д.), то довольно много усилий было потрачено на обеспечение совместимости интеграционных провайдеров решений со стеком Arenadata Hadoop.

Помимо непосредственно миграции в рамках проекта, РСХБ заложил основу для перехода на архитектуру Lakehouse, что позволит объединить функции озера данных и хранилища данных для ускорения всех аналитических процессов. Сразу после осуществления миграции летом 2024 г. целевой кластер был доукомплектован дополнительными вычислительными узлами для обеспечения большей отказоустойчивости и необходимых ресурсов для новых аналитических задач.

Внедрение новой платформы позволяет РСХБ уже сейчас решать комплекс бизнес-задач, а также открывает в ближайшей перспективе дополнительные возможности.

Финансовая аналитика и управленческая отчётность: новая платформа обеспечивает доступ к контурам разработки и расчётов управленческой отчётности, а также является поставщиком данных для импортозамещённого BI-решения. Это способствует ускорению процесса принятия решений за счёт высокой доступности и актуальности данных.

Управление качеством данных: система предоставляет возможности для периодического контроля качества данных, в том числе с помощью внешних комплексных платформ управления, что повышает точность принятия решений и достоверность получаемой информации.

Операционная аналитика: платформа поддерживает аналитические расчёты для региональных подразделений, способствуя росту продаж и увеличению доходности за счёт более точных прогнозов и планирования. Это позволяет подразделениям оперативно реагировать на изменения рынка и эффективно распределять свои ресурсы.

Также на основе данных озера работает платформа искусственного интеллекта РСХБ (RAISA — RSHBAI Systems and Applications), которой пользуются более 300 работников. Интеграция системы RAISA с озером улучшила аналитику клиентской базы, позволила ускорить маркетинговые кампании благодаря быстрому доступу к данным, повысила скорость и качество анализа и оптимизации операционных бизнес-процессов. Департамент финансов и планирования использует озеро для быстрого принятия решений и комплексных задач анализа, невыполнимых в рамках стандартных СУБД. Департаменту рисков озеро помогает лучше управлять кредитным портфелем, эффективно находить риск-баланс, работать над комплексными многофакторными риск-моделями.

Наиболее острые вопросы по реализации проекта были решены в сотрудничестве со службой поддержки, командой консалтинга, командой разработки и иными специалистами Arenadata, а все заинтересованные лица со стороны РСХБ прошли обучение работе с Arenadata Hadoop в учебном центре Arenadata. Перемещение озера на ADH завершилось в декабре 2023 г., после чего наступил этап развития проекта. Часть решений и запросов на изменения, возникших в рамках реализации проекта, вошли в состав новых релизов ПО Arenadata Hadoop.

"Одна из основных задач, которую мы сейчас решаем, — построение уже импортозамещённого слоя оперативных данных для загрузки всех генерируемых РСХБ данных на следующие слои хранилища. Этот шаг поможет нам сократить время обработки данных от их возникновения до появления в оперативном хранилище, а также позволит ужесточить SLA по оперативности, предоставляя пользователям данные высокого качества в нужный момент", — отметил директор департамента больших данных РСХБ Александр Сабуров.

"Проект, реализованный РСХБ, наглядно демонстрирует, что замена решения зарубежного вендора не завершается самим процессом импортозамещения. Это только начало, которое открывает перед финансовой организацией многочисленные возможности. Команда департамента больших данных уже сейчас превращает РСХБ в банк будущего, способный отвечать высоким требованиям клиентов", — считает директор департамента группы Arenadata по работе с финансовым сектором и международным бизнесом Юлия Ильина.