📍 Москва (м. Тверская)Полная удалёнка
Специализация
Data Science / Machine Learning
Flocktory — аккредитованная динамично развивающаяся IT-компания, один из лидеров рынка Marketing Technologies.
Год основания: 2012.
Команда: 190+ человек.
Продукты: SaaS-платформа платформа лидогенерации, монетизации и персонализации.
Ценность наших продуктов: помогаем E-Commerce делать коммуникацию с покупателями максимально персонализированной и благодаря этому увеличивать лояльность покупателей, конверсию и средний чек, а также привлекать новую аудиторию и увеличивать прибыль.
Благодаря интеграции нашей платформы с сайтами крупнейших игроков рынка мы можем видеть больше 35% всех транзакций Рунета и данные о покупках и поведении более 100 миллионов человек.
Клиенты: 300+ крупных E-Commerce/ритейлеров, банков, страховых компаний (Детский мир, М.Видео, АльфаБанк, Газпромбанк, S7, Билайн, МТС, Мегафон, L'Oreal и др.).
Оборот: в 2023 году наша выручка составила более 2,5 млрд, что на 136% больше, чем в 2022 году. Мы стабильно растем по выручке на 40% YoY последние 9 лет.
Технологии/инструменты
SQLApacheScalaPython
Что и как мы делаем
Аналитическое хранилище для BI, data science и бизнес-подразделений:
- Прорабатываем модель этих данных и решаем, как и где они будут храниться. Разные продукты = разные профили нагрузки; разные профили нагрузки = разные БД. Что Postgres-у хорошо, то для Redis-а смерть, и наоборот. Поэтому мы используем микс MPP-баз, традиционных RDBMS, Kafka, NoSQL и распределенных файловых систем.
- Делаем data-self service. Чтобы полезно работать с данными, аналитически настроенные подразделения умеют в SQL и Python, а менее технические пользователи хотят красивые однокнопочные инструменты и chatops.
- Автоматизируем работу с метаданными. Это чтобы аналитики всегда знали, какую схему имеет таблица X, что в ней означает столбец Y и для каких запросов оптимизирована таблица Z. Работа с Hive metastore, Glue, Apache Atlas и т. п. — это всё здесь.
ETL- и аналитические процессы:
- Пакетные Spark-джобы на Scala.
- Стриминговые Flink-джобы — опять-таки на Scala.
- Пайплайны на Airflow.
- Кластер Kafka connect.
В общем, то, что называется “data-intensive” приложения, и порою довольно-таки за рамками простого filter + save. Иногда ещё и в реальном времени.
Качество данных:
Вот как мы заботимся о качестве данных:
- Поднимаем на новые высоты автоматизированную и развесистую data quality систему на базе Airflow.
- Даём нетехническим пользователям интерактивные дашборды, где хорошо видно, всё ли в порядке с данными.
- Развиваем систему мониторинга и алертинга, постигая некоторые неочевидные тонкости Prometheus, Grafana и Cloudwatch.
Производительность ETL и аналитики:
Увлеченно воюем с проблемами вроде таких:
- Почему в стриминговой джобе без состояния столь неприлично долгие full GC-паузы.
- Затюнить использование off-heap памяти в Flink и при этом не сойти с ума.
- Оптимизировать вон тот запрос из 5 джойнов, который стал в последнее время подлагивать.
Кого ищем
Человека, которого описание работы выше не оттолкнуло, а наоборот. Не знаете чего-то из этого? Не проблема, мы тоже много чего не знаем, будем разбираться вместе. Особенно легко будет разобраться, если вы:
- Работали с одним из open-source планировщиков: Apache Airflow, Apache Oozie, Luigi, да хоть cron.
- Умеете писать SQL-запросы с агрегацией, вложенностью и разными видами join-ов (а аналитические функции мы и сами каждый раз пишем со словарём).
- Писали / пишете на Scala (опыт type class-эквилибристики не обязателен).
- Знаете или готовы изучить Python.
- Работали с Apache Spark (batch / streaming / structured streaming) и / или Apache Flink.
- Запускали сервисы в AWS / GCE / Azure.
Что предлагаем
- Официальное трудоустройство, белая зарплата.
- ДМС со стоматологией после испытательного срока.
- Частичную компенсацию аренды жилья рядом с офисом.
- Внешние программы обучения и участие в конференциях.
- Современный комфортный офис в двух минутах ходьбы от метро Тверская.
- Классную команду профессионалов, где ценят поддержку, возможность дать и получить обратную связь и открытую коммуникацию с любым членом команды.