Альфа-банк

Старший инженер данных (RAG)

в Альфа-банк

от 250 000 ₽/мес до налогов

📍 Москва (м. Технопарк)Офис или гибрид
Специализация
Data Engineering
Уровень
Senior
Требуемый опыт
1+ лет

Технологии/инструменты

PythonJupyterLabJupyterHubApache AirflowArgo WorkflowsFastAPIApache SparkPySparkSpark History ServeraiohttphttpxSQLOraclePostgreSQLParquetHadoopHDFSHiveIceberg

Обязанности:

  • Проводить анализ источников данных для их интеграции в платформу RAG.
  • Изучать атрибутный состав и модель данных.
  • Искать атрибуты — поля данных, содержащие необходимую контекстную информацию для RAG.
  • Определять технический способ интеграции.
  • Реплицировать базы данных для подключения к платформе RAG.
  • Разрабатывать пакетные (batch) и потоковые (streaming) ETL-процессы репликации данных в интеграционный слой хранения.
  • Проводить векторизацию данных.
  • Разрабатывать сервисы пакетной и потоковой обработки контекстных данных для вычисления их векторного представления (embedding) и сохранения в векторном хранилище платформы RAG.
  • Исследовать методы повышения эффективности обработки и хранения контекстных данных для RAG.
  • Эффективно взаимодействовать в составе команды со специалистами по анализу данных и специалистами по развитию инфраструктуры.

Требования:

  • Иметь высокий уровень знаний языка программирования Python — структуры данных, итераторы и декораторы, параллельное и асинхронное программирование, объектно-ориентированное и функциональное программирование.
  • Иметь опыт работы в среде JupyterLab/JupyterHub.
  • Иметь опыт реализации промышленных отказоустойчивых сервисов на Python — сервисы пакетной загрузки и трансформации данных (ETL) на платформах Apache Airflow, Argo Workflows; веб-сервисы на основе библиотеки FastAPI.
  • Понимать принципы микросервисной архитектуры.
  • Понимать принципы распределённых вычислений и обработки данных.
  • Понимать принципы потоковой обработки данных.
  • Обладать хорошими знаниями платформы Apache Spark — опыт использования библиотеки PySpark, влияние конфигурации приложения PySpark на производительность и эффективность обработки данных, отладка и анализ эффективности приложений PySpark с помощью Spark History Server.
  • Иметь опыт асинхронного программного взаимодействия с веб-сервисами по REST API с использованием библиотек — aiohttp, httpx.
  • Обладать отличными знаниями SQL — создание сложных запросов с использованием табличных выражений (CTE) и оконных функций.
  • Иметь хорошие знания и опыт использования реляционных баз данных Oracle, PostgreSQL.
  • Понимать особенности обработки и хранения аналитических данных (OLAP), понимать отличия колоночных баз данных от строковых, знать колоночные форматы хранения данных — Parquet, ORC.
  • Обладать хорошими знаниями и опытом использования хранилищ больших данных — Hadoop/HDFS, S3, форматы таблиц Hive, Iceberg.

Личностные и коммуникативные навыки (Soft Skills):

  • Проявлять проактивный подход к работе — способность и желание искать и предлагать методы и варианты решения задач.
  • Сохранять общий позитивный настрой и активную жизненную позицию.
  • Уметь и хотеть работать в команде, делиться опытом с коллегами и учиться новым практикам.
  • Открыто сообщать о трудностях, препятствующих решению задач.

Будет дополнительным преимуществом:

  • Иметь базовые знания языков программирования Scala, Java, Groovy.
  • Знать и иметь опыт использования платформ потоковой обработки данных Apache Kafka, Apache Flink — чтение и запись потока данных Apache Kafka с помощью библиотек aiokafka, confluent-kafka, kafka-python, разработка потоковых приложений Apache Flink.
  • Знать базовые принципы обработки естественных языков (NLP).
  • Иметь общее представление о нейросетевых моделях машинного обучения и о больших языковых моделях LLM.

Условия:

  • Работать в атмосфере взаимопонимания и творческого сотрудничества увлечённых своим делом профессионалов, готовых всегда прийти на помощь.
  • Выполнять интересные и нетривиальные задачи.
  • Иметь возможность принять участие в создании и развитии инновационного программного продукта.
  • Оформление по ТК РФ.
  • Работать по графику 5/2 с возможностью частичной или полностью удалённой работы.
  • Получать достойную и полностью «белую» заработную плату (уровень заработной платы обсуждается с успешным кандидатом).
Анастасия Пономарева Recruiter
Альфа-банк

О компании Альфа-банк

Сфера
Банки / Финтех
Инвестиции
$100M+
Размер
1001+

Альфа-банк — крупнейший независимый частный банк в России, лучший работодатель России по версии hh․ru и Хабр. 30 лет подряд занимает ведущие позиции в сегментах банковского бизнеса. Клиентская база составляет более 550 тысяч корпоративных клиентов и более 16 млн физлиц.

Похожие вакансии

450 000 – 550 000 ₽/мес на руки
📍 Москва (м. Пролетарская), полная удалёнка
400 000 – 500 000 ₽/мес на руки
📍 Москва (м. Баррикадная), Санкт-Петербург (м. Беговая), офис или гибрид
400 000 – 480 000 ₽/мес на руки
📍 Москва (м. Смоленская), Санкт-Петербург (м. Площадь Ленина), Минск (Беларусь), офис или гибрид
350 000 – 500 000 ₽/мес на руки
📍 Москва (м. Белорусская), полная удалёнка
350 000 – 440 000 ₽/мес на руки
📍 Москва (м. Пролетарская), полная удалёнка