Вакансия в архиве
Компания больше не ищет сотрудника. Посмотрите похожие предложения

Все вакансииData Scientist & Machine LearningМоскваMiddle

ML Data Engineer (GigaChat Data)

в Сбер

200 000 —‍ 400 000 ₽/‍мес на руки

📍 Москва (м. Кутузовская)

Санкт-Петербург (м. Новочеркасская)

Гибрид

Специализация

Data Scientist & Machine Learning

Уровень

Middle

Требуемый опыт

1+ лет

Технологии/инструменты

Python

LangChain / LangGraph

PyTorch

llm-foundry

verl

Llama

Mistral

Qwen

GPT

Claude

Docker

Мы — команда ML-инженеров, специализирующаяся на инфраструктуре данных и валидации моделей. Наша команда создает критически важные инструменты для оценки качества моделей, разрабатывает пайплайны обработки данных и фокусируется на генерации высококачественных технических и кодовых данных для обучения моделей.

Наши основные направления:

• Validation & Metrics — инструменты валидации и замера моделей

• Data Engineering — пайплайны чистки и синтеза данных

• Code & Technical Data — генерация кодовых/технических данных

• MLOps — хостинг и использование open source моделей

• Model Training — эксперименты с LoRA и SFT

Если тебе интересно создавать инфраструктуру для развития LLM и работать с передовыми технологиями в области данных — приходи к нам.

Обязанности

Validation & Metrics:
Разрабатывать инструменты для валидации и замера качества моделей.
Создавать метрики оценки производительности и точности LLM.
Автоматизировать процессы тестирования и бенчмаркинга.
Data Engineering:
Строить и оптимизировать пайплайны чистки и синтеза данных.
Разрабатывать системы контроля качества данных.
Автоматизировать процессы фильтрации и предобработки.
Code & Technical Data:
Генерировать высококачественные кодовые и технические датасеты.
Работать с различными форматами программного кода и технической документации.
Создавать синтетические данные для обучения моделей на технических задачах.
MLOps:
Развертывать и поддерживать инфраструктуру для хостинга open source моделей.
Интегрировать и использовать open source модели в продуктовых решениях.
Обеспечивать мониторинг и масштабирование ML-сервисов.
Model Training & Experiments:
Обучать LoRA адаптеры для экспериментальных задач.
Проводить SFT обучение в рамках исследований данных.
Анализировать результаты экспериментов и итерировать подходы.

Требования

Отличное знание Python и опыт работы с ML-библиотеками (LangChain/LangGraph, PyTorch, llm-foundry, verl).
Опыт работы с LLM (как open source: Llama, Mistral, Qwen, так и проприетарными: GPT, Claude).
Понимание принципов работы с данными для обучения моделей: сбор, очистка, валидация.
Навыки построения ML пайплайнов и автоматизации процессов.
Понимание процессов, знание подходов к валидации и тестированию моделей машинного обучения.
Понимание основ MLOps и работы с контейнеризацией (Docker).

Будет плюсом:

Опыт с фреймворками для работы с агентами и RAG.
Знание подходов к fine-tuning (LoRA, QLoRA, SFT).
Опыт работы с системами версионирования данных и экспериментов (DVC, MLflow, W&B).
Понимание принципов работы с кодовыми данными и техническими текстами.
Опыт развертывания и мониторинга ML-моделей в production.

Условия

Комфортный современный офис — м. Кутузовская.
Ежегодный пересмотр зарплаты, годовой бонус.
Корпоративный спортзал и зоны отдыха.
Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития.
Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа.
Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ.
Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров.
Вознаграждение за рекомендацию друзей в команду Сбера.
Корпоративная пенсионная программа.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.