📍 МоскваМожно удалённо из РФ
Специализация
Data Engineering
Технологии/инструменты
SQLPythonAirflowClickHouse
Проект — построение и развитие Хранилища Данных.
Основные задачи — развитие существующего фреймворка загрузки сырьевых данных и построение витрин над ними, развитие Дата Каталога, движка Data Quality.
Наш стек
- Greenplum и ClickHouse, как DWH.
- Airflow как оркестратор задач.
- Python для дагов и операторов в AF.
- Debezium как CDC.
- Yandex Cloud как место работы всех наших сервисов.
- DBT как основа дата каталога и шаблонизатор SQL.
Чем предстоит заниматься
В первые три месяца
- Погрузиться во фреймворки загрузки данных и расчета витрин на основе задач по одному из направлений.
- Освоиться в предметной области данных.
- Проводить code review аналитиков с целью использования ими лучших технических решений и оптимизации производительности.
Когда освоишься
- Создавать новые паттерны загрузки данных и расчета витрин для дальнейшего переиспользования.
- Развивать модель данных.
- Рефакторить текущие процессы, предлагать лучшие практики работы с данными.
Что нужно, чтобы к нам присоединиться
- Знать особенности MPP-систем.
- Уверенно владеть SQL (Оконные функции, партицирование, агрегации, оптимизация запросов, понимание плана запроса).
- Иметь опыт с Python достаточный для разработки операторов в Airflow(ООП) и написания пайплайнов данных из различных источников.
- Понимать принципы работы Airflow (даги, таски, операторы, сенсоры, хуки, контекст).
Будет плюсом
- Опыт в Greenplum и/или ClickHouse(особенно шардированный).
Что предлагаем
- Очень интересный сложный продукт с большим количеством пользователей.
- Формат работы: полная удаленка, при желании — гибрид/офис.
- Оформление в IT-компании, аккредитованной в Министерстве цифрового развития.
- ДМС.