Все вакансииData Scientist & Machine LearningRemoteLead

MLE Руководитель направления RL Efficiency (Lead)

в Сбер

650 000 —‍ 850 000 ₽/‍мес на руки

📍 Россия

Удалённо

Специализация

Data Scientist & Machine Learning

Уровень

Lead

Технологии/инструменты

CUDA

Embedded Software

Hardware

Kubernetes

LLM

Market Research

Open Source

Python

PyTorch

Research

Training

Triton

VLLM

Мы развиваем GigaChat и ищем сильного руководителя направления RL Efficiency. Это роль для человека, который возьмёт на себя эффективность всего RL-контура: обучающий цикл, rollout, reward-сигналы, взаимодействие с инференсом и инфраструктура под онлайн-эксперименты.

Цель направления — сделать так, чтобы online RL / RLHF / RLVR-обучение GigaChat было максимально быстрым, стабильным и дешёвым: сократить time-to-feedback по экспериментам, поднять утилизацию кластера и упростить запуск новых RL-рецептов на масштабе.

Нам нужен не просто менеджер, а сильный технический руководитель, способный глубоко погружаться в детали, самостоятельно собирать ключевые части решения и доводить идеи до реального ускорения RL-пайплайна.

Чем предстоит заниматься

Развивать направление RL Efficiency целиком

Определять, как должно развиваться направление эффективности RL: какие места критичны на данный момент, как измерять прогресс и что в первую очередь ограничивает скорость экспериментов.
Вести направление целиком: от постановки гипотез и плана работ до внедрения результатов в регулярный цикл обучения.
Принимать решения о приоритетах между ускорением rollout, оптимизацией обучающего цикла, инфраструктурой и системой оценки качества.

Ускорять цикл online RL

Оптимизировать пайплайн online RL: генерация rollout'ов, сбор reward-сигналов, обновление весов модели, overlap-этапов.
Выстраивать эффективное взаимодействие между обучающим контуром и инференс-движком (vLLM / SGLang / собственные решения), добиваясь высокой утилизации и низкой задержки.
Работать с весами и KV-cache: быстрое обновление весов между итерациями, снижение overhead-синхронизаций, оптимизация памяти.
Повышать стабильность больших RL-прогонов: контроль деградаций, автоматическое восстановление, диагностика сбоев.

Развивать инфраструктуру под RL-эксперименты

Развивать фреймворк обучения, поддерживающий RLHF / RLVR / PPO / GRPO / DPO и их вариации на масштабе.
Делать так, чтобы новые RL-рецепты можно было быстро и безопасно запускать на больших моделях без ручной поддержки для каждого эксперимента.
Обеспечивать воспроизводимость RL-экспериментов: версионирование данных, конфигов, чекпоинтов, reward-моделей.

Писать ключевой код и оставаться сильным инженером

Самостоятельно писать и дорабатывать критичные части RL-пайплайна.
Профилировать обучение на всех уровнях стека и находить узкие места в rollout, обучении и коммуникациях.
Оставаться сильным инженером и исследователем, а не только руководителем: при необходимости самому разбирать узкие места в коде, экспериментах и взаимодействии с hardware.

Руководить сильной технической командой

Руководить командой инженеров по эффективности RL, задавать высокую планку по качеству решений и перфу.
Помогать команде превращать исследовательские идеи в работающие решения, которые можно встроить в основной цикл RL-обучения.
Удерживать баланс между глубиной оптимизаций, инженерной надёжностью и практическим результатом для модели.

Для нас важно

Отличное владение Python и PyTorch (DDP/FSDP, distributed training).
Практический опыт с обучением LLM и понимание механики RL post-training: RLHF, RLVR, PPO / GRPO / DPO.
Опыт оптимизации обучения и инференса LLM: профилирование, узкие места, параллелизм, mixed precision.
Понимание архитектуры LLM: Transformer, attention (MHA/GQA/MLA), MoE и их влияние на rollout.
Способность самостоятельно взять направление и довести его до результата: от постановки задач до внедрения в продакшн-RL.
Опыт руководства сильной технической командой и готовность лично писать важные части системы руками.

Будет плюсом

Опыт работы с современными RL-стэками: verl, TRL или собственные решения.
Опыт работы с large-scale inference (vLLM, SGLang, TRT-LLM) и оптимизацией генерации.
Опыт написания CUDA / Triton ядер и понимание особенностей NVIDIA GPU.
Понимание коммуникационного стека больших обучений: NCCL, NVSHMEM, RDMA/IB.
Опыт работы с кластерными системами: Slurm, Kubernetes, Ray или собственные оркестраторы.
Публикации, open-source вклад или сильный прикладной research track record.

Что предлагаем

Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
Большую степень влияния на архитектуру решений, методы обучения и качество итоговой модели.
Команду сильных инженеров и исследователей.
Возможность совмещать управление направлением с глубокой технической работой.
Конкурентную компенсацию, премии и расширенный соцпакет.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.