Мы — команда ML-инженеров, специализирующаяся на инфраструктуре данных и валидации моделей. Наша команда создает критически важные инструменты для оценки качества моделей, разрабатывает пайплайны обработки данных и фокусируется на генерации высококачественных технических и кодовых данных для обучения моделей.
Наши основные направления:
• Validation & Metrics — инструменты валидации и замера моделей
• Data Engineering — пайплайны чистки и синтеза данных
• Code & Technical Data — генерация кодовых/технических данных
• MLOps — хостинг и использование open source моделей
• Model Training — эксперименты с LoRA и SFT
Если тебе интересно создавать инфраструктуру для развития LLM и работать с передовыми технологиями в области данных — приходи к нам.
Обязанности
- Validation & Metrics:
- Разрабатывать инструменты для валидации и замера качества моделей.
- Создавать метрики оценки производительности и точности LLM.
- Автоматизировать процессы тестирования и бенчмаркинга.
- Data Engineering:
- Строить и оптимизировать пайплайны чистки и синтеза данных.
- Разрабатывать системы контроля качества данных.
- Автоматизировать процессы фильтрации и предобработки.
- Code & Technical Data:
- Генерировать высококачественные кодовые и технические датасеты.
- Работать с различными форматами программного кода и технической документации.
- Создавать синтетические данные для обучения моделей на технических задачах.
- MLOps:
- Развертывать и поддерживать инфраструктуру для хостинга open source моделей.
- Интегрировать и использовать open source модели в продуктовых решениях.
- Обеспечивать мониторинг и масштабирование ML-сервисов.
- Model Training & Experiments:
- Обучать LoRA адаптеры для экспериментальных задач.
- Проводить SFT обучение в рамках исследований данных.
- Анализировать результаты экспериментов и итерировать подходы.
Требования
- Отличное знание Python и опыт работы с ML-библиотеками (LangChain/LangGraph, PyTorch, llm-foundry, verl).
- Опыт работы с LLM (как open source: Llama, Mistral, Qwen, так и проприетарными: GPT, Claude).
- Понимание принципов работы с данными для обучения моделей: сбор, очистка, валидация.
- Навыки построения ML пайплайнов и автоматизации процессов.
- Понимание процессов, знание подходов к валидации и тестированию моделей машинного обучения.
- Понимание основ MLOps и работы с контейнеризацией (Docker).
Будет плюсом:
- Опыт с фреймворками для работы с агентами и RAG.
- Знание подходов к fine-tuning (LoRA, QLoRA, SFT).
- Опыт работы с системами версионирования данных и экспериментов (DVC, MLflow, W&B).
- Понимание принципов работы с кодовыми данными и техническими текстами.
- Опыт развертывания и мониторинга ML-моделей в production.
Условия
- Комфортный современный офис — м. Кутузовская.
- Ежегодный пересмотр зарплаты, годовой бонус.
- Корпоративный спортзал и зоны отдыха.
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития.
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа.
- Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ.
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров.
- Вознаграждение за рекомендацию друзей в команду Сбера.
- Корпоративная пенсионная программа.