Вакансия в архиве
Компания больше не ищет сотрудника. Посмотрите похожие предложения
Авиасейлс

Data Engineer

в Авиасейлс

от 200 000 ₽/мес на руки

📍 МоскваПолная удалёнка
Специализация
Data Science / Machine Learning
Уровень
Middle
Команда
6 - 10 человек

Наша команда инфраструктуры аналитики помогает аналитикам делать свою работу. Мы обеспечиваем доставку данных в единое хранилище для аналитики и поддерживаем инструменты для их обработки и презентации.

В компании много самодостаточных команд. В каждой команде свои сервисы, свои разработчики и аналитики. Так что у нас достаточно потоков данных самого разнообразного формата и объема. Это данные о букингах, на которые смотрит вся компания, и каждая запись проверяется чуть ли не руками, а еще — данные о билетах объемом более терабайта в сутки. Это требует разных подходов с нашей стороны.

Технологии/инструменты

KafkaPythonSQLOOP

Мы используем Apache Impala на базе Apache Hadoop для хранения и обработки данных.

Основной источник данных — Kafka. Для доставки и оркестрации данных мы используем самописные сервисы на Python 3 + PostgreSQL. Аналитики строят отчеты в Redash и Apache Superset.

Языки программирования:

Основной язык — это Python. Мы стараемся регулярно обновлять версию, сейчас у нас 3.8. Важно знать SQL, он нужен для Impala и PostgreSQL. У нашего сервиса есть админка, она написана на TS (React) + MobX. Иногда полезно знание С++, Scala, Go, чтобы посмотреть на исходный код используемых сервисов, как open source, так и тех, что пишут другие команды в компании.

Чем предстоит заниматься

Основная задача группы инфраструктуры аналитики — поддерживать ее работоспособность.

В это входит много разных задач:

  • Подключение новых данных; мониторинг актуальности; исследование производительности отдельных запросов и базы в целом; разработка инструментов для запуска агрегатов разных форматов и так далее.
  • Есть пара хранилищ, которые оптимизированы для каких-то специальных целей. Например, для команды саппорта. Там основная задача в том, чтобы данные не расходились с основным хранилищем. Поддерживаем open source продукты, которые связаны с аналитикой; Superset и Redash для отчетов. Snowplow для сбора клиентских событий.
  • Основной код, с которым надо работать, это репозиторий для софта. Он выполняет доставку данных в кластер и последующую оркестрацию задач. Там порядка 40 тысяч строк на Python 3.8 и 3 тысячи на TypeScript (это админка). Критическая функциональность покрыта тестами, и юнит и приемочными. 80% кода покрыто тестами. Тестирование и сборка производятся на CI сервере (Jenkins). Деплой в Kubernetes. Настройкой серверов и разворачиванием баз мы не занимаемся. Это делает отдельная команда инфраструктуры. Поступающие задачи можно поделить на две группы: текучка и развитие платформы.

Текучка бывает разная:

  • Нужно подключить новые данные или изменить формат уже подключенных.
  • Нужно помочь разобраться, почему не работает SQL-запрос или BI-система.
  • Произошел какой-то инцидент и нужно найти корень проблемы и починить или донести до тех, кто может починить.
  • Как правило, такие штуки появляются как запросы через Slack, которые мы регистрируем в JIRA и выполняем обычно в течение одного-двух дней.

Развитие платформы — это проекты от двух недель до нескольких месяцев, которые дают какие-то новые возможности: бэкапы в AWS S3 Glacier; оптимизированные агрегаты; автоматическая выгрузка результатов расчетов во внешние базы. Большая часть таких задач приходит от команды аналитики. Сейчас мы планируем переезд на более современный стек.

Но мы много выделяем времени на задачи, которые уменьшают количество текучки или облегчают её выполнение.

Кого ищем

  • Опыт работы инженером данных от 2 лет.
  • Отличное знание Python.
  • Хорошее знание ООП.
  • Самостоятельность и ответственность.

Что предлагаем

  • Сильную команду и возможность влиять как на технологические, так и на продуктовые решения.
  • Возможность выбрать, где работать — удаленно или в одном из наших офисов в Петербурге или Москве.
  • Заботу о здоровье: компенсацию индивидуальной психотерапии, ДМС для тебя и твоей семьи.
  • Поддержку твоих увлечений: компенсацию занятий спортом и изучения иностранных языков.
Татьяна Лаврентьева Recruiter
Авиасейлс

О компании Авиасейлс

Сфера
Продуктовая компания
Инвестиции
$100M+
Размер
201 - 500

Авиасейлс — крупнейший в России и третий по объемам в мире метапоиск авиабилетов и отелей. Аудитория на всех платформах превышает 15 млн человек ежемесячно.

Похожие вакансии

5 000 – 6 500 €/мес на руки
📍 Лимасол (Кипр), полная удалёнка
400 000 – 500 000 ₽/мес на руки
📍 Москва (м. Краснопресненская), Санкт-Петербург (м. Беговая), можно удалённо из РФ
380 000 – 440 000 ₽/мес на руки
📍 Москва, можно удалённо из РФ
365 000 – 585 000 ₽/мес на руки
📍 Москва (м. Белорусская), полная удалёнка
300 000 – 450 000 ₽/мес на руки
📍 Москва (м. Проспект Вернадского), можно удалённо из РФ