📍 Санкт-ПетербургМоскваМожно удалённо из РФ
Перед командой Data Lake стоит задача развития и поддержки основного компонента современной аналитической платформы, включающей инструменты по сбору, хранению, обработке и анализу данных.
Платформа дает нашим пользователям (аналитикам и разработчикам из продуктовых команд) возможность быстрой, параллельной и независимой разработки ETL по загрузке данных и построению витрин для решения прикладных бизнес-задач. Данные, которые регулярно загружаются в Data Lake, используются Data Scientist'ами и аналитиками данных для построения моделей машинного обучения, отчетности и визуализации.
Ищем в команду DevOps-инженера для поддержки и развития Data Lake, смежных сервисов и внутренних процессов.
Технологии/инструменты
RHELHadoopHiveSparkRangerAirFlowZabbixRundeckGitlab CIAnsibleDockerNGINX
- RHEL7, Hadoop (HDFS, YARN), Spark 2/3.
- Для работы с данными, загружаемыми в Data Lake, мы предоставляем сервисы MLFlow и JupyterHub.
- Данные Data Lake являются источником для аналитического компонента платформы на базе Greenplum (ADWH).
Примеры будущих задач
На текущий момент перед нами стоят следующие задачи: миграция сервисов платформы в Kubernetes, обновление версии Airflow на версию 2.x, миграция части компонент Hadoop на ванильные версии с собственной сборкой, оптимизация использования ресурсов в части хранения данных, проработка и настройка тест и превью контуров кластеров.
Чем предстоит заниматься
- Обеспечивать работоспособность Data Lake.
- Настраивать мониторинг.
- Анализировать и оптимизировать производительность различных компонентов Data Lake.
- Поддерживать в актуальном состоянии имеющуюся инфраструктуру.
- Устранять выявленные уязвимости.
- Настраивать и поддерживать процессы и инструменты интеграции Data Lake с системами-источниками и потребителями данных.
- Разрабатывать CI/CD.
- Решать пользовательские инциденты и анализировать их причины.
- Документировать разрабатываемые процессы и обучать коллег работе с ними.
Ожидания
- Linux: знания rpm-based дистрибутивов (RHEL, CentOS) — troubleshooting, virtualization, performance optimization.
- Programming: опыт автоматизации с помощью скриптов на Python, общие знания в области устройства JVM / JDK (GC, Heap).
- Database: опыт администрирования и эксплуатации PostgreSQL — понимание ролевой модели и структуры сервисных объектов, базовые навыки в написании SQL-запросов.
- Monitoring: опыт настройки мониторинга системы с помощью Zabbix.
- DevOps: опыт работы с Gitlab или другим инструментом в части организации CI/CD, знания в области автоматизации (Ansible, Rundeck).
Будет большим плюсом:
- Опыт администрирования Hadoop, умение работать с HDFS, YARN, Hive, Ranger, Spark и прочими компонентами окружения. Понимание архитектуры и навыки в устранении проблем и оптимизации производительности в разрезе различных компонентов.
- Опыт развертывания и эксплуатации приложений в K8s / PKS, в том числе с
Helm.
Что мы предлагаем
- Самостоятельно сформировать гибкий график удаленной работы с возможностью работать в офисе в Москве (м. Технопарк), Омске или коворкинге в СПб.
- Развиваться: мы оплачиваем профессиональные тренинги и образовательные курсы, отправляем на лучшие тематические профессиональные конференции, а также проводим внутрибанковские митапы с приглашёнными экспертами.
- Влиять на конечный результат и понимать бизнес-логику продуктов.
- Работать на корпоративном MacBook'е.
- Также для наших сотрудников мы предлагаем специальные условия по продуктам нашей компании.
- Отличный социальный пакет, включая ДМС + стоматология, страхование жизни, в том числе и выезжающих за рубеж.
- Полную отплату больничного (14 календарных дней в год).
- Обширную программу скидок в компаниях партнерах (фитнес, рестораны, мобильная связь и т.д.).