Сбер

ML-инженер (Online RL) / Post-Training LLM

в Сбер

350 000 —‍ 550 000 ₽/‍мес на руки

📍 Россия
Удалённо
Специализация
Data Scientist & Machine Learning
Уровень
Senior

Технологии/инструменты

Python
PyTorch

Мы развиваем GigaChat и ищем сильного ML-инженера в команду online RL. Это роль для человека, который умеет доводить исследовательские идеи до работающих решений: проектировать и запускать эксперименты, строить надёжные пайплайны обучения и добиваться реального роста качества модели.

Нам нужен не просто исполнитель задач, а инженер с сильным исследовательским мышлением, который способен самостоятельно разбираться в сложных проблемах, предлагать новые идеи и решения и нести ответственность за результат.

Чем предстоит заниматься

Разрабатывать и улучшать методы online RL

  • Реализовывать и дорабатывать подходы post-training и online RL.
  • Проектировать и проводить эксперименты: формулировать гипотезы, подбирать конфигурации, анализировать результаты не только на уровне метрик, но и на уровне причин.
  • Разбираться, почему модель стала лучше или хуже, насколько устойчив результат и можно ли его масштабировать на другие домены и типы задач.
  • Следить за state-of-the-art: читать статьи, воспроизводить результаты, адаптировать лучшие подходы под наши задачи и инфраструктуру.

Строить и развивать инфраструктуру обучения

  • Разрабатывать и поддерживать пайплайны online RL: от генерации rollout'ов и сбора reward-сигналов до обновления весов модели.
  • Обеспечивать воспроизводимость экспериментов: версионирование данных, конфигов, чекпоинтов, контроль деградаций.
  • Оптимизировать throughput и эффективность использования GPU: distributed training, параллелизм, профилирование узких мест.
  • Выстраивать связку между моделью, средами исполнения, верификаторами и reward-моделями так, чтобы новые идеи можно было быстро проверять.

Работать с данными и системой оценки качества

  • Участвовать в проектировании и реализации reward-сигналов: rule-based верификаторы, reward-модели, LLM-as-a-judge, execution-based проверки.
  • Строить и улучшать пайплайны подготовки данных: фильтрация, дедупликация, балансировка, контроль утечек.
  • Анализировать ошибки модели, выявлять систематические слабые места и формировать целевые обучающие выборки для их устранения.

Работать в сильной команде

  • Тесно взаимодействовать с исследователями, другими инженерами, командами данных и инфраструктуры.
  • Брать на себя ответственность за целые куски системы: от идеи до результата в проде.
  • Делиться знаниями, участвовать в код-ревью, помогать поднимать общую планку качества.

Для нас важно

  • Отличное владение Python и PyTorch.
  • Практический опыт в LLM post-training: RLHF, online RL, DPO или смежных направлениях.
  • Опыт проведения ML-экспериментов от начала до конца: постановка гипотезы → реализация → анализ → выводы.
  • Понимание distributed training: Data Parallel, FSDP, DeepSpeed или аналоги.
  • Умение писать чистый, надёжный, production-ready код.
  • Способность разбираться в сложных системах и самостоятельно находить и устранять узкие места.

Будет плюсом

  • Опыт работы с reward-моделями, process reward models, LLM-as-a-judge.
  • Опыт построения сред исполнения, sandboxes и верификаторов для code- или STEM-задач.
  • Опыт работы с large-scale inference и оптимизацией генерации (vLLM, Sglang и т.д.).
  • Понимание современных open-source стеков для обучения LLM (Verl, Megatron, TRL и др.).
  • Публикации, open-source вклад или сильный прикладной track record.

Что предлагаем

  • Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
  • Прямое влияние на качество модели: результаты твоей работы видны в бенчмарках и в продукте.
  • Команду сильных инженеров и исследователей, у которых есть чему поучиться.
  • Возможность совмещать инженерную и исследовательскую работу.
  • Конкурентную компенсацию, премии и расширенный соцпакет.
Сбер

О компании Сбер

Сфера
Банки / Финтех
Размер
1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.