Сбер

MLE Руководитель направления RL Efficiency (Lead)

в Сбер

650 000 —‍ 850 000 ₽/‍мес на руки

📍 Россия
Удалённо
Специализация
Data Scientist & Machine Learning
Уровень
Lead

Технологии/инструменты

CUDA
Embedded Software
Hardware
Kubernetes
LLM
Market Research
Open Source
Python
PyTorch
Research
Training
Triton
VLLM

Мы развиваем GigaChat и ищем сильного руководителя направления RL Efficiency. Это роль для человека, который возьмёт на себя эффективность всего RL-контура: обучающий цикл, rollout, reward-сигналы, взаимодействие с инференсом и инфраструктура под онлайн-эксперименты.

Цель направления — сделать так, чтобы online RL / RLHF / RLVR-обучение GigaChat было максимально быстрым, стабильным и дешёвым: сократить time-to-feedback по экспериментам, поднять утилизацию кластера и упростить запуск новых RL-рецептов на масштабе.

Нам нужен не просто менеджер, а сильный технический руководитель, способный глубоко погружаться в детали, самостоятельно собирать ключевые части решения и доводить идеи до реального ускорения RL-пайплайна.

Чем предстоит заниматься

Развивать направление RL Efficiency целиком

  • Определять, как должно развиваться направление эффективности RL: какие места критичны на данный момент, как измерять прогресс и что в первую очередь ограничивает скорость экспериментов.

  • Вести направление целиком: от постановки гипотез и плана работ до внедрения результатов в регулярный цикл обучения.

  • Принимать решения о приоритетах между ускорением rollout, оптимизацией обучающего цикла, инфраструктурой и системой оценки качества.

Ускорять цикл online RL

  • Оптимизировать пайплайн online RL: генерация rollout'ов, сбор reward-сигналов, обновление весов модели, overlap-этапов.

  • Выстраивать эффективное взаимодействие между обучающим контуром и инференс-движком (vLLM / SGLang / собственные решения), добиваясь высокой утилизации и низкой задержки.

  • Работать с весами и KV-cache: быстрое обновление весов между итерациями, снижение overhead-синхронизаций, оптимизация памяти.

  • Повышать стабильность больших RL-прогонов: контроль деградаций, автоматическое восстановление, диагностика сбоев.

Развивать инфраструктуру под RL-эксперименты

  • Развивать фреймворк обучения, поддерживающий RLHF / RLVR / PPO / GRPO / DPO и их вариации на масштабе.

  • Делать так, чтобы новые RL-рецепты можно было быстро и безопасно запускать на больших моделях без ручной поддержки для каждого эксперимента.

  • Обеспечивать воспроизводимость RL-экспериментов: версионирование данных, конфигов, чекпоинтов, reward-моделей.

Писать ключевой код и оставаться сильным инженером

  • Самостоятельно писать и дорабатывать критичные части RL-пайплайна.

  • Профилировать обучение на всех уровнях стека и находить узкие места в rollout, обучении и коммуникациях.

  • Оставаться сильным инженером и исследователем, а не только руководителем: при необходимости самому разбирать узкие места в коде, экспериментах и взаимодействии с hardware.

Руководить сильной технической командой

  • Руководить командой инженеров по эффективности RL, задавать высокую планку по качеству решений и перфу.

  • Помогать команде превращать исследовательские идеи в работающие решения, которые можно встроить в основной цикл RL-обучения.

  • Удерживать баланс между глубиной оптимизаций, инженерной надёжностью и практическим результатом для модели.

Для нас важно

  • Отличное владение Python и PyTorch (DDP/FSDP, distributed training).

  • Практический опыт с обучением LLM и понимание механики RL post-training: RLHF, RLVR, PPO / GRPO / DPO.

  • Опыт оптимизации обучения и инференса LLM: профилирование, узкие места, параллелизм, mixed precision.

  • Понимание архитектуры LLM: Transformer, attention (MHA/GQA/MLA), MoE и их влияние на rollout.

  • Способность самостоятельно взять направление и довести его до результата: от постановки задач до внедрения в продакшн-RL.

  • Опыт руководства сильной технической командой и готовность лично писать важные части системы руками.

Будет плюсом

  • Опыт работы с современными RL-стэками: verl, TRL или собственные решения.

  • Опыт работы с large-scale inference (vLLM, SGLang, TRT-LLM) и оптимизацией генерации.

  • Опыт написания CUDA / Triton ядер и понимание особенностей NVIDIA GPU.

  • Понимание коммуникационного стека больших обучений: NCCL, NVSHMEM, RDMA/IB.

  • Опыт работы с кластерными системами: Slurm, Kubernetes, Ray или собственные оркестраторы.

  • Публикации, open-source вклад или сильный прикладной research track record.

Что предлагаем

  • Сильные и сложные задачи на переднем крае развития русскоязычных LLM.

  • Большую степень влияния на архитектуру решений, методы обучения и качество итоговой модели.

  • Команду сильных инженеров и исследователей.

  • Возможность совмещать управление направлением с глубокой технической работой.

  • Конкурентную компенсацию, премии и расширенный соцпакет.

Сбер

О компании Сбер

Сфера
Банки / Финтех
Размер
1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.