Специализация
Data Engineering
Dodo Engineering — IT-подразделение международной компании Dodo Brands, развивающей 2 бренда:
Более 1000 точек в 17 странах.
Data team:
Мы разрабатываем платформу данных для it-команд в Dodo. Хотим сделать Dodo Brands data-driven компанией.
Мы в поиске Data Engineer, который возьмёт на себя ответственность за процессы дата-инжиниринга в самом крупном домене данных, выстроит архитектуру и будет внедрять новые процессы. И будет развивать крупнейший домен данных в Dodo Brands. Нам важно выстроить процессы внутри домена и давать бизнесу быстро актуальные данные.
Технологии/инструменты
Python/Scala/JavaSparkSpark StreamingStructured Streaming
- У нас современная платформа, которая базируется на облачных сервисах Azure Databricks.
- Данные загружаем с помощью Debezium или принимаем события в Event Hub (Kafka).
- Храним в Delta Lake, всё раскладываем по слоям и Data Vault.
- Витрины храним в Kusto, а визуализация в Superset.
- Основной язык — Python.
Про продукт и команду
- У нас есть крутая Data Platform и c помощью неё любой в компании может легко пользоваться данными для принятия решений. Data Platform решает задачи от построения простых дашбордов до создания и выкатки в продакшн Deep Learning моделей.
- Наша главная цель — сделать так, чтобы платформа помогала командам постоянно внедрять инновации, развивать и создавать прорывные продукты.
- Внутри Data Platform есть множество доменов данных, где аналитики работают самостоятельно. Сейчас мы в поиске Data Engineer, который возьмёт на себя ответственность за самый крупный домен данных — отчётность для партнёров.
Чем предстоит заниматься
Сейчас есть несколько крупных проблем, которые предстоит решить:
Для нас важно
- Опыт лидерства дата-команд и изменения процессов.
- Подтверждённый опыт построения процессов Data Governance.
- Уверенное владение одним из языков программирования: Python, Scala, Java.
- Опыт построение пайплайнов данных с мониторингом и логированием; опыт в оптимизации/изменении существующих пайплайнов.
- Spark, Spark Streaming (у нас Structured Streaming).
- System Design.
- Дизайн DWH и хорошие навыки в моделировании данных (мы используем Data Vault).
Будет плюсом:
- Apache Kafka и/или RabbitMQ.
- MPP/Cloud data warehouse решения (Snowflake, Redshift, BigQuery, Vertica, Teradata, Greenplum, Azure DWH, ClickHouse и т.д.).
- Умение писать и оптимизировать сложные SQL-запросы.
- Дизайн распределенных систем.
- Опыт MLOps.
- Опыт работы с Hudi или Iceberg или Delta Lake.
- Умение балансировать между MVP и собственным перфекционизмом.
Полезные материалы
Полина Семавина Recruiter