📍 Санкт-ПетербургМоскваПолная удалёнка
Специализация
Data Science
В работе мы ставим амбициозные цели и не останавливаемся на достигнутом. Поэтому для нас так важно, чтобы каждый участник большой команды Авито разделял культуру компании. Погрузиться в неё помогает Манифест, в котором собраны наши основные ориентиры — миссия, ценности, принципы работы.
Технологии/инструменты
Python/Java/ScalaHadoop/Spark/HiveLinux
О команде
- Мы — команда качества поиска Авито. Мы создаем, внедряем и следим за качеством алгоритмов ранжирования объявлений, оптимизируя сценарии для десятков миллионов покупателей, продавцов и клиентов Авито. Разрабатываем пайплайны обработки данных для внедрения моделей машинного обучения, проектируем принципы разделения трафика и имплементируем их в наших алгоритмах.
- В своей работе мы собираем данные об объявлениях и пользовательской активности из разных источников, обогащаем и строим на их основе общедоступные агрегаты и модели. Наш кластер Apache Spark ежедневно обрабатывает события от десятков миллионов активных пользователей. Он постоянно поставляет данные в продуктовые сервисы, а также является аналитической платформой для нескольких десятков аналитиков поиска, вертикалей и монетизации.
- Наш вызов — дать аналитикам и инженерам максимально удобные инструменты и интеграции с имеющимися данными, при этом не забывая об их качестве и постоянных запросах на увеличение нагрузки, как от бизнеса, так и от растущей аудитории.
Вам предстоит
- Разрабатывать новые и поддерживать существующие продукты в составе кросс-функциональной команды.
- Заниматься развитием существующей BigData-платформы с упреждением растущей нагрузки от новых задач и данных (90% задач связаны со Spark).
- Создавать новые сервисы на Python и улучшать уже существующие.
- Продвигать лучшие практики и делиться с командой своим опытом.
- Предлагать новые подходы и тут же пробовать их в продакшене с реальными данными.
Мы ждём, что вы
- Знаете и умеете писать на Python или Java/Scala (с переходом на Python).
- Глубоко понимаете экосистему Hadoop/Spark/Hive и связанных продуктов.
- Имеете опыт работы с данными/решали аналитические задачи.
- Умеете администрировать Linux системы на базовом уровне.
- Не боитесь нестандартных решений.
Будет здорово, если вы:
- Имеете опыт работы с Apache AirFlow, знаете принципы построения пайплайнов.
- Разрабатывали бэкенд приложения на Flask/AsyncIO/Django/другом Python фреймворке или Golang.
- Разбираетесь в инфраструктуре Apache Kafka.
- Писали стриминговые приложения на Apache Flink/Spark.
- Использовали в своей работе для администрирования оркестраторы кластеров (Ansible, SaltStack, Puppet и др.).
- Умеете и любите писать тесты, знаете подходы TDD, BDD.
- Собирали CI/CD решения, умеете работать с Docker.
- Работали с кластерными СУБД (Vertica, ClickHouse, Sphinx, Trino и др.).
Работа у нас — это
- Интересные и важные задачи на очень большом проекте.
- Передовые технологии и подходы, возможность пробовать новое.
- Опытные и заинтересованные коллеги, готовые оказать поддержку.
- Возможность приносить пользу миллионам пользователей, реализуя решения, основанные на данных.
- Личный бюджет на обучение, который можно тратить на книги, курсы и конференции.
- Забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист.
- Возможность работать удаленно и по желанию посещать комфортный офис в Москве или Санкт-Петербурге.
Евгения Лавренова IT-Recruiter