📍 Москва (м. Технопарк)Офис или гибрид
Специализация
Data Engineering
Технологии/инструменты
PythonJupyterLabJupyterHubApache AirflowArgo WorkflowsFastAPIApache SparkPySparkSpark History ServeraiohttphttpxSQLOraclePostgreSQLParquetHadoopHDFSHiveIceberg
Обязанности:
- Проводить анализ источников данных для их интеграции в платформу RAG.
- Изучать атрибутный состав и модель данных.
- Искать атрибуты — поля данных, содержащие необходимую контекстную информацию для RAG.
- Определять технический способ интеграции.
- Реплицировать базы данных для подключения к платформе RAG.
- Разрабатывать пакетные (batch) и потоковые (streaming) ETL-процессы репликации данных в интеграционный слой хранения.
- Проводить векторизацию данных.
- Разрабатывать сервисы пакетной и потоковой обработки контекстных данных для вычисления их векторного представления (embedding) и сохранения в векторном хранилище платформы RAG.
- Исследовать методы повышения эффективности обработки и хранения контекстных данных для RAG.
- Эффективно взаимодействовать в составе команды со специалистами по анализу данных и специалистами по развитию инфраструктуры.
Требования:
- Иметь высокий уровень знаний языка программирования Python — структуры данных, итераторы и декораторы, параллельное и асинхронное программирование, объектно-ориентированное и функциональное программирование.
- Иметь опыт работы в среде JupyterLab/JupyterHub.
- Иметь опыт реализации промышленных отказоустойчивых сервисов на Python — сервисы пакетной загрузки и трансформации данных (ETL) на платформах Apache Airflow, Argo Workflows; веб-сервисы на основе библиотеки FastAPI.
- Понимать принципы микросервисной архитектуры.
- Понимать принципы распределённых вычислений и обработки данных.
- Понимать принципы потоковой обработки данных.
- Обладать хорошими знаниями платформы Apache Spark — опыт использования библиотеки PySpark, влияние конфигурации приложения PySpark на производительность и эффективность обработки данных, отладка и анализ эффективности приложений PySpark с помощью Spark History Server.
- Иметь опыт асинхронного программного взаимодействия с веб-сервисами по REST API с использованием библиотек — aiohttp, httpx.
- Обладать отличными знаниями SQL — создание сложных запросов с использованием табличных выражений (CTE) и оконных функций.
- Иметь хорошие знания и опыт использования реляционных баз данных Oracle, PostgreSQL.
- Понимать особенности обработки и хранения аналитических данных (OLAP), понимать отличия колоночных баз данных от строковых, знать колоночные форматы хранения данных — Parquet, ORC.
- Обладать хорошими знаниями и опытом использования хранилищ больших данных — Hadoop/HDFS, S3, форматы таблиц Hive, Iceberg.
Личностные и коммуникативные навыки (Soft Skills):
- Проявлять проактивный подход к работе — способность и желание искать и предлагать методы и варианты решения задач.
- Сохранять общий позитивный настрой и активную жизненную позицию.
- Уметь и хотеть работать в команде, делиться опытом с коллегами и учиться новым практикам.
- Открыто сообщать о трудностях, препятствующих решению задач.
Будет дополнительным преимуществом:
- Иметь базовые знания языков программирования Scala, Java, Groovy.
- Знать и иметь опыт использования платформ потоковой обработки данных Apache Kafka, Apache Flink — чтение и запись потока данных Apache Kafka с помощью библиотек aiokafka, confluent-kafka, kafka-python, разработка потоковых приложений Apache Flink.
- Знать базовые принципы обработки естественных языков (NLP).
- Иметь общее представление о нейросетевых моделях машинного обучения и о больших языковых моделях LLM.
Условия:
- Работать в атмосфере взаимопонимания и творческого сотрудничества увлечённых своим делом профессионалов, готовых всегда прийти на помощь.
- Выполнять интересные и нетривиальные задачи.
- Иметь возможность принять участие в создании и развитии инновационного программного продукта.
- Оформление по ТК РФ.
- Работать по графику 5/2 с возможностью частичной или полностью удалённой работы.
- Получать достойную и полностью «белую» заработную плату (уровень заработной платы обсуждается с успешным кандидатом).
Анастасия Пономарева Recruiter