
MLE Руководитель направления RL Efficiency (Lead)
в Сбер
650 000 — 850 000 ₽/мес на руки
Технологии/инструменты
Мы развиваем GigaChat и ищем сильного руководителя направления RL Efficiency. Это роль для человека, который возьмёт на себя эффективность всего RL-контура: обучающий цикл, rollout, reward-сигналы, взаимодействие с инференсом и инфраструктура под онлайн-эксперименты.
Цель направления — сделать так, чтобы online RL / RLHF / RLVR-обучение GigaChat было максимально быстрым, стабильным и дешёвым: сократить time-to-feedback по экспериментам, поднять утилизацию кластера и упростить запуск новых RL-рецептов на масштабе.
Нам нужен не просто менеджер, а сильный технический руководитель, способный глубоко погружаться в детали, самостоятельно собирать ключевые части решения и доводить идеи до реального ускорения RL-пайплайна.
Чем предстоит заниматься
Развивать направление RL Efficiency целиком
-
Определять, как должно развиваться направление эффективности RL: какие места критичны на данный момент, как измерять прогресс и что в первую очередь ограничивает скорость экспериментов.
-
Вести направление целиком: от постановки гипотез и плана работ до внедрения результатов в регулярный цикл обучения.
-
Принимать решения о приоритетах между ускорением rollout, оптимизацией обучающего цикла, инфраструктурой и системой оценки качества.
Ускорять цикл online RL
-
Оптимизировать пайплайн online RL: генерация rollout'ов, сбор reward-сигналов, обновление весов модели, overlap-этапов.
-
Выстраивать эффективное взаимодействие между обучающим контуром и инференс-движком (vLLM / SGLang / собственные решения), добиваясь высокой утилизации и низкой задержки.
-
Работать с весами и KV-cache: быстрое обновление весов между итерациями, снижение overhead-синхронизаций, оптимизация памяти.
-
Повышать стабильность больших RL-прогонов: контроль деградаций, автоматическое восстановление, диагностика сбоев.
Развивать инфраструктуру под RL-эксперименты
-
Развивать фреймворк обучения, поддерживающий RLHF / RLVR / PPO / GRPO / DPO и их вариации на масштабе.
-
Делать так, чтобы новые RL-рецепты можно было быстро и безопасно запускать на больших моделях без ручной поддержки для каждого эксперимента.
-
Обеспечивать воспроизводимость RL-экспериментов: версионирование данных, конфигов, чекпоинтов, reward-моделей.
Писать ключевой код и оставаться сильным инженером
-
Самостоятельно писать и дорабатывать критичные части RL-пайплайна.
-
Профилировать обучение на всех уровнях стека и находить узкие места в rollout, обучении и коммуникациях.
-
Оставаться сильным инженером и исследователем, а не только руководителем: при необходимости самому разбирать узкие места в коде, экспериментах и взаимодействии с hardware.
Руководить сильной технической командой
-
Руководить командой инженеров по эффективности RL, задавать высокую планку по качеству решений и перфу.
-
Помогать команде превращать исследовательские идеи в работающие решения, которые можно встроить в основной цикл RL-обучения.
-
Удерживать баланс между глубиной оптимизаций, инженерной надёжностью и практическим результатом для модели.
Для нас важно
-
Отличное владение Python и PyTorch (DDP/FSDP, distributed training).
-
Практический опыт с обучением LLM и понимание механики RL post-training: RLHF, RLVR, PPO / GRPO / DPO.
-
Опыт оптимизации обучения и инференса LLM: профилирование, узкие места, параллелизм, mixed precision.
-
Понимание архитектуры LLM: Transformer, attention (MHA/GQA/MLA), MoE и их влияние на rollout.
-
Способность самостоятельно взять направление и довести его до результата: от постановки задач до внедрения в продакшн-RL.
-
Опыт руководства сильной технической командой и готовность лично писать важные части системы руками.
Будет плюсом
-
Опыт работы с современными RL-стэками: verl, TRL или собственные решения.
-
Опыт работы с large-scale inference (vLLM, SGLang, TRT-LLM) и оптимизацией генерации.
-
Опыт написания CUDA / Triton ядер и понимание особенностей NVIDIA GPU.
-
Понимание коммуникационного стека больших обучений: NCCL, NVSHMEM, RDMA/IB.
-
Опыт работы с кластерными системами: Slurm, Kubernetes, Ray или собственные оркестраторы.
-
Публикации, open-source вклад или сильный прикладной research track record.
Что предлагаем
-
Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
-
Большую степень влияния на архитектуру решений, методы обучения и качество итоговой модели.
-
Команду сильных инженеров и исследователей.
-
Возможность совмещать управление направлением с глубокой технической работой.
-
Конкурентную компенсацию, премии и расширенный соцпакет.

О компании Сбер
Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.