
ML-инженер (Online RL) / Post-Training LLM
в Сбер
350 000 — 550 000 ₽/мес на руки
Технологии/инструменты
Мы развиваем GigaChat и ищем сильного ML-инженера в команду online RL. Это роль для человека, который умеет доводить исследовательские идеи до работающих решений: проектировать и запускать эксперименты, строить надёжные пайплайны обучения и добиваться реального роста качества модели.
Нам нужен не просто исполнитель задач, а инженер с сильным исследовательским мышлением, который способен самостоятельно разбираться в сложных проблемах, предлагать новые идеи и решения и нести ответственность за результат.
Чем предстоит заниматься
Разрабатывать и улучшать методы online RL
- Реализовывать и дорабатывать подходы post-training и online RL.
- Проектировать и проводить эксперименты: формулировать гипотезы, подбирать конфигурации, анализировать результаты не только на уровне метрик, но и на уровне причин.
- Разбираться, почему модель стала лучше или хуже, насколько устойчив результат и можно ли его масштабировать на другие домены и типы задач.
- Следить за state-of-the-art: читать статьи, воспроизводить результаты, адаптировать лучшие подходы под наши задачи и инфраструктуру.
Строить и развивать инфраструктуру обучения
- Разрабатывать и поддерживать пайплайны online RL: от генерации rollout'ов и сбора reward-сигналов до обновления весов модели.
- Обеспечивать воспроизводимость экспериментов: версионирование данных, конфигов, чекпоинтов, контроль деградаций.
- Оптимизировать throughput и эффективность использования GPU: distributed training, параллелизм, профилирование узких мест.
- Выстраивать связку между моделью, средами исполнения, верификаторами и reward-моделями так, чтобы новые идеи можно было быстро проверять.
Работать с данными и системой оценки качества
- Участвовать в проектировании и реализации reward-сигналов: rule-based верификаторы, reward-модели, LLM-as-a-judge, execution-based проверки.
- Строить и улучшать пайплайны подготовки данных: фильтрация, дедупликация, балансировка, контроль утечек.
- Анализировать ошибки модели, выявлять систематические слабые места и формировать целевые обучающие выборки для их устранения.
Работать в сильной команде
- Тесно взаимодействовать с исследователями, другими инженерами, командами данных и инфраструктуры.
- Брать на себя ответственность за целые куски системы: от идеи до результата в проде.
- Делиться знаниями, участвовать в код-ревью, помогать поднимать общую планку качества.
Для нас важно
- Отличное владение Python и PyTorch.
- Практический опыт в LLM post-training: RLHF, online RL, DPO или смежных направлениях.
- Опыт проведения ML-экспериментов от начала до конца: постановка гипотезы → реализация → анализ → выводы.
- Понимание distributed training: Data Parallel, FSDP, DeepSpeed или аналоги.
- Умение писать чистый, надёжный, production-ready код.
- Способность разбираться в сложных системах и самостоятельно находить и устранять узкие места.
Будет плюсом
- Опыт работы с reward-моделями, process reward models, LLM-as-a-judge.
- Опыт построения сред исполнения, sandboxes и верификаторов для code- или STEM-задач.
- Опыт работы с large-scale inference и оптимизацией генерации (vLLM, Sglang и т.д.).
- Понимание современных open-source стеков для обучения LLM (Verl, Megatron, TRL и др.).
- Публикации, open-source вклад или сильный прикладной track record.
Что предлагаем
- Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
- Прямое влияние на качество модели: результаты твоей работы видны в бенчмарках и в продукте.
- Команду сильных инженеров и исследователей, у которых есть чему поучиться.
- Возможность совмещать инженерную и исследовательскую работу.
- Конкурентную компенсацию, премии и расширенный соцпакет.

О компании Сбер
Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.