Проект — построение и развитие Хранилища Данных FoodTech.
Основные задачи — развитие существующего фреймворка загрузки сырьевых данных и построение витрин над ними, развитие Дата Каталога, движка Data Quality.
Технологии/инструменты
SQLPythonAirflowClickHouse
Наш стэк
Greenplum и ClickHouse, как DWH.
Airflow, как оркестратор задач.
Python для дагов и операторов в AF.
Debezium как CDC.
Yandex Cloud, как место работы всех наших сервисов.
DBT, как основа дата каталога и шаблонизатор SQL.
Чем предстоит заниматься
В первые три месяца
Погрузиться во фреймворки загрузки данных и расчета витрин на основе задач по одному из направлений.
Освоиться в предметной области данных.
Проводить code review аналитиков с целью использования ими лучших технических решений и оптимизации производительности.
Когда освоишься
Создавать новые паттерны загрузки данных и расчета витрин для дальнейшего переиспользования.
Развивать модель данных.
Рефакторить текущие процессы, предлагать лучшие практики работы с данными.