Яндекс Финтех

Data Platform Engineer (NRT/Spark)

в Яндекс Финтех

160 000 —‍ 680 000 ₽/‍мес на руки

📍 Москва (м. Павелецкая)
Санкт-Петербург (м. Площадь Ленина)
Гибрид
📍 Россия
Удалённо
Специализация
Data Engineering / DWH (Data warehouse)
Уровень
Middle
Требуемый опыт
4+ лет

Технологии/инструменты

PostgreSQL
Oracle
MongoDB
Greenplum
Amazon S3
Python
Apache Airflow
Apache Spark
DataFrame
Trino
S3

Описание проекта

Финтех в Яндексе — это одно из ключевых и наиболее динамично развивающихся направлений компании. Это экосистема финансовых сервисов, встроенная в повседневную жизнь миллионов пользователей и бизнесов.

Это молодое, смелое направление, которое уже доказало свою пользу и продолжает активно расти.

Ключевые продукты Финтеха Яндекса: Яндекс Пэй, Сплит, Сейвы, Карта Плюса, Кредитные продукты, Яндекс ID, Яндекс Про и многое другое.

Это сложная инженерная и аналитическая среда, где пересекаются хайлоад, большие данные и жёсткие требования регуляторов.

Здесь ты столкнёшься с

  • Высокими нагрузками: Миллионы транзакций, таблицы с объёмом далеко за 1 млн записей.
  • Распределёнными данными: Используются Greenplum, ClickHouse, Hadoop, Spark для обработки огромных массивов информации.
  • Архитектурой DWH: Строятся сложные хранилища данных, витрины для отчётности (регуляторной и управленческой), настраиваются ETL-процессы.
  • Безопасностью и интеграцией: Проработка интеграций с внешними источниками (БКИ, СМЭВ), автоматизация ручных процессов бэк-офиса, работа с автоматизированными банковскими системами.

В команду платформенных данных требуется специалист по Apache Spark с глубоким пониманием внутренней архитектуры фреймворка. Основная задача — развитие платформы для обработки NRT-данных (near real time), повышение отказоустойчивости и производительности потоковых процессов.

Какие задачи вас ждут

Проектирование и развитие облачной data-платформы

  • Оптимизация текущей инфраструктуры и проектирование новых компонентов платформы с использованием облачных технологий Yandex Cloud. Готовимся к кратному росту объемов обрабатываемых данных.

Миграция с GreenPlum на Trino / S3

  • Переход с дорогостоящего в поддержке и эксплуатации Greenplum на доступ к данным в S3 через Trino. Используем современные технологии для быстрого доступа к данным в основном хранилище.

Построение единой observability-платформы для таблиц DWH

  • Создание единой точки входа для мониторинга статусов сборки, качества данных и анализа зависимостей, включая построение datalineage и процессы логирования. Обеспечиваем наблюдаемость и контролируемость процессов.

Ускорение текущих процессов поставки данных

  • Оптимизация существующих и построение новых надежных процессов поставки данных, включая процессы взятия снепшотов, загрузки инкрементов напрямую, из аудит-таблиц и CDC, а также внедрение Spark Streaming или аналогичных решений для обеспечения near-real-time обновления данных. Ускоряем обработку растущих потоков данных.

Автоматизация ручных процессов

  • Построение CI/CD пайплайнов для автоматизации процессов развертывания инфраструктуры, построения новых интеграций. Отдаем рутину автоматике.

Повышение безопасности доступа к данным

  • Выстраивание процессов автоматической выдачи и контроля доступов во всех системах, включая доступ к инфраструктуре, данным и аудит действий пользователей. Обеспечиваем безопасный и контролируемый доступ к банковским данным.

Построение тестовых окружений

  • Создание изолированных сред разработки, тестирования и предпрод с автоматизированными процессами тестирования. Выстраиваем среду безопасной разработки и повышаем надежность разрабатываемых решений.

Развитие фреймворков обработки данных

  • Развитие внутренних фреймворков для загрузки, трансформации и контроля качества данных. Делаем low-code решения для ускорения разработки.

Ключевые требования

  • Опыт коммерческой разработки от 4 лет.
  • Глубокое понимание устройства БД: оптимизация запросов, планы выполнения, партиционирование, шардирование и индексы.
  • Владение разными типами СУБД: PostgreSQL, Oracle, MongoDB, Greenplum.
  • Реальный опыт с CDC (Change Data Capture) — понимание принципов и умение реализовывать пайплайны.
  • Уверенная работа с S3-совместимыми хранилищами.

Стек для ежедневных задач:

  • Языки: Python (основной для разработки пайплайнов и скриптов).
  • Оркестрация: Apache Airflow (разработка пайплайнов).
  • Обработка данных: Apache Spark (Spark SQL, DataFrame).
  • Запросы: Trino (работа с данными через движок).
Яндекс Финтех

О компании Яндекс Финтех

Сфера
Банки / Финтех

Яндекс Финтех — молодой, но амбициозный продукт Яндекса. Команда создает удобные платежные сервисы и инструменты для управления личными финансами многомиллионной аудитории Яндекса.