Spark, DataSphere и немного магии: как мы строим аналитическую платформу в облаке для банка

Сергей Виноградов на конференции Data&ML2Business рассказал про разработку и построение DWH для задач Яндекс Пэй. В этой статье — дополненный рассказ о том, как устроена аналитическая платформа на базе Greenplum и ClickHouse, которую решили строить на базе managed-сервисов в облаке. А также о том, как жизнь аналитиков облегчает связка Apache Spark и Jupyter-ноутбуков в Yandex DataSphere. Для решения классических аналитических задач в банке дата-специалисты обрабатывают миллиарды транзакций. Поэтому создание единого информационного пространства для работы с большими объёмами данных потребует решить как задачи оптимизации производительности и обеспечения безопасности, так и задачи удобства для пользователей — и найти баланс между ними.

Перейти