Все вакансииData Scientist & Machine LearningRemoteSenior

ML-инженер (Online RL) / Post-Training LLM

в Сбер

350 000 —‍ 550 000 ₽/‍мес на руки

📍 Россия

Удалённо

Специализация

Data Scientist & Machine Learning

Уровень

Senior

Технологии/инструменты

Python

PyTorch

Мы развиваем GigaChat и ищем сильного ML-инженера в команду online RL. Это роль для человека, который умеет доводить исследовательские идеи до работающих решений: проектировать и запускать эксперименты, строить надёжные пайплайны обучения и добиваться реального роста качества модели.

Нам нужен не просто исполнитель задач, а инженер с сильным исследовательским мышлением, который способен самостоятельно разбираться в сложных проблемах, предлагать новые идеи и решения и нести ответственность за результат.

Чем предстоит заниматься

Разрабатывать и улучшать методы online RL

Реализовывать и дорабатывать подходы post-training и online RL.
Проектировать и проводить эксперименты: формулировать гипотезы, подбирать конфигурации, анализировать результаты не только на уровне метрик, но и на уровне причин.
Разбираться, почему модель стала лучше или хуже, насколько устойчив результат и можно ли его масштабировать на другие домены и типы задач.
Следить за state-of-the-art: читать статьи, воспроизводить результаты, адаптировать лучшие подходы под наши задачи и инфраструктуру.

Строить и развивать инфраструктуру обучения

Разрабатывать и поддерживать пайплайны online RL: от генерации rollout'ов и сбора reward-сигналов до обновления весов модели.
Обеспечивать воспроизводимость экспериментов: версионирование данных, конфигов, чекпоинтов, контроль деградаций.
Оптимизировать throughput и эффективность использования GPU: distributed training, параллелизм, профилирование узких мест.
Выстраивать связку между моделью, средами исполнения, верификаторами и reward-моделями так, чтобы новые идеи можно было быстро проверять.

Работать с данными и системой оценки качества

Участвовать в проектировании и реализации reward-сигналов: rule-based верификаторы, reward-модели, LLM-as-a-judge, execution-based проверки.
Строить и улучшать пайплайны подготовки данных: фильтрация, дедупликация, балансировка, контроль утечек.
Анализировать ошибки модели, выявлять систематические слабые места и формировать целевые обучающие выборки для их устранения.

Работать в сильной команде

Тесно взаимодействовать с исследователями, другими инженерами, командами данных и инфраструктуры.
Брать на себя ответственность за целые куски системы: от идеи до результата в проде.
Делиться знаниями, участвовать в код-ревью, помогать поднимать общую планку качества.

Для нас важно

Отличное владение Python и PyTorch.
Практический опыт в LLM post-training: RLHF, online RL, DPO или смежных направлениях.
Опыт проведения ML-экспериментов от начала до конца: постановка гипотезы → реализация → анализ → выводы.
Понимание distributed training: Data Parallel, FSDP, DeepSpeed или аналоги.
Умение писать чистый, надёжный, production-ready код.
Способность разбираться в сложных системах и самостоятельно находить и устранять узкие места.

Будет плюсом

Опыт работы с reward-моделями, process reward models, LLM-as-a-judge.
Опыт построения сред исполнения, sandboxes и верификаторов для code- или STEM-задач.
Опыт работы с large-scale inference и оптимизацией генерации (vLLM, Sglang и т.д.).
Понимание современных open-source стеков для обучения LLM (Verl, Megatron, TRL и др.).
Публикации, open-source вклад или сильный прикладной track record.

Что предлагаем

Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
Прямое влияние на качество модели: результаты твоей работы видны в бенчмарках и в продукте.
Команду сильных инженеров и исследователей, у которых есть чему поучиться.
Возможность совмещать инженерную и исследовательскую работу.
Конкурентную компенсацию, премии и расширенный соцпакет.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.