Мы — команда разработки хранилищ и инструментов аналитики (Statistic & Marketing Team), ищем Data Engineer. На нас полный цикл очистки сырых данных и превращение их в бизнес-статистику.
Наша команда собирает, обрабатывает и предоставляет в удобном формате уникальные данные из внутренних и внешних продуктов: пользовательская статистика, данные по аудитории, финансовая отчётность. Главная задача команды — создавать инструменты, которые помогают быстро анализировать и принимать верные решения на разных управленческих уровнях, включая стратегические решения.
Дата в компании сейчас — это петабайты данных с нагрузками до ~140000 rps.
Мы смотрим далеко вперед и хотим заранее быть готовыми к сильному скачку в количестве данных и пользователей, из-за чего начинаем проработку новой архитектуры с нуля, параллельно преобразуя старые решения.
У тебя есть возможность поучаствовать в создании чего-то нового и очень эффективного с нуля, и воплотить в жизнь то, что всегда хотелось сделать, но было трудно доказать бизнесу, что оно того стоит!
Что нужно будет делать ближайшее время с командой
- Разработать и оптимизировать процесс забора данных из Hadoop/Spark, а также читать данные из Kafka.
- Построить эффективные витрины данных в ClickHouse для аналитики в Yandex DataLens.
- Разработать и оптимизировать ETL/ELT-пайплайны для обработки и трансформации данных.
- Автоматизировать процесс формирования аналитических отчетов в DataLens.
- Улучшить процессы извлечения данных из MS SQL и интеграции с другими системами.
- Проанализировать и переработать существующую архитектуру данных, обеспечивая высокую производительность и отказоустойчивость.
- Работать с потоковыми данными в Kafka и организовывать качественную доставку данных.
- Настроить мониторинг и контроль качества данных, развернуть систему документирования метаданных (например, OpenMetadata или DataHub).
- В дальнейшем подключать в инструментарий Облачные решения, Trino и т.д.
Наш стек технологий
- Языки программирования: Сейчас C#/.NET, Python (будет плюсом Java/Scala/Kotlin/Go).
- Хранилища данных: ClickHouse, MS SQL.
- Big Data: Hadoop, Spark.
- Потоковая обработка данных: Kafka.
- ETL/ELT: Airflow (dbt, Dagster).
- BI и визуализация: Yandex DataLens, Power BI.
- Развертывание и мониторинг: Docker, Kubernetes, Grafana, Elasticsearch.
- Облачные технологии: AWS S3 (будет плюсом).
Что мы ожидаем от кандидата
- Опыт работы на позиции Data Engineer от 5 лет.
- Хорошие знания SQL (ClickHouse, MS SQL, альтернативы).
- Опыт работы с распределенными системами (Hadoop, Spark, альтернативы).
- Навыки работы с потоковыми данными и системами очередей (Kafka).
- Опыт проектирования и разработки ETL/ELT-пайплайнов (Airflow, dbt, Dagster или аналог).
- Понимание принципов работы DWH и построения OLAP-витрин.
- Опыт работы с BI-инструментами (DataLens, Tableau, PowerBI будет плюсом).
- C#/.NET и Python сейчас используется в большей степени — будет плюсом Go/Java/Scala/Kotlin.
- Навыки работы с Git, CI/CD и автоматизацией процессов развертывания.
Будет преимуществом:
- Опыт работы с Airflow (dbt, Dagster) или другими инструментами оркестрации пайплайнов.
- Опыт настройки OpenMetadata или DataHub для документирования метаданных.
- Понимание концепций Data Governance и контроля качества данных.
- Опыт работы с контейнеризацией (Docker, Kubernetes).
- Опыт работы с AWS S3, Trino.
Как мы работаем и что ценим
- Ориентируемся на конечный результат, выбирая простые и понятные решения вместо излишне сложных подходов.
- Самостоятельно разбираемся в требованиях, доводим решения до завершенного состояния и осознанно оцениваем компромиссы между скоростью, стоимостью и надежностью.
- Умеем грамотно декомпозировать задачи, планируя работу так, чтобы поддерживать прозрачность процесса и прогнозируемый результат.
- Не боимся задавать вопросы и просить помощь, если сталкиваемся со сложностями.
- Используем наилучшие инженерные практики (SOLID, DRY, KISS), но применяем их осознанно там, где они действительно необходимы.
Что мы предлагаем
- 2ГИС — аккредитованная IT-компания.
- У нас можно работать удалённо. Для нас важен специалист, а не его локация. Если хочешь работать в гибридном формате, у нас есть офисы в Москве, Санкт-Петербурге, два классных офиса в Новосибирске.
- Само собой, полностью белая зарплата. Дополнительные дни отпуска за стаж работы в компании.
- Заботимся о здоровье: ДМС и возможность получать онлайн-консультации и терапевта, невролога, психолога и медицинского агента.
- Если хочешь делиться своим опытом, мы только за — поможем с выступлениями на конференциях и статьями для Хабра.
- Есть собственный учебный центр: курсы, тренинги и книги для прокачки скиллов.
Приходите, у нас хорошо. Как у других, только лучше!