
Руководитель направления Online RL (Code) / Post-Training LLM в команду GigaChat
в Сбер
650 000 — 850 000 ₽/мес на руки
Технологии/инструменты
Мы развиваем GigaChat и ищем сильного руководителя направления online RL в домене кода. Это роль для человека, который умеет одновременно развивать методы обучения моделей, писать код своими руками и выстраивать процессы сбора и подготовки данных.
Нам нужен не просто менеджер, а сильный технический руководитель, который способен глубоко погружаться в детали, самостоятельно собирать ключевые части решения и доводить идеи до реального роста качества модели.
Чем предстоит заниматься
Развивать направление online RL для задач по коду
- Определять, как должно развиваться направление online RL в code-домене: какие задачи для нас наиболее важны, как измерять прогресс и что в первую очередь ограничивает рост качества модели.
- Вести направление целиком: от постановки гипотез и плана работ до внедрения результатов в регулярный цикл обучения модели.
- Принимать решения о приоритетах между развитием методов, сбором данных, инфраструктурой и системой оценки качества.
Разрабатывать и улучшать методы обучения
- Развивать подходы post-training и online RL для задач по коду.
- Продумывать и внедрять способы оценки качества, которые помогают модели лучше решать реальные задачи: писать корректный код, пользоваться инструментами, проходить тесты, выполнять многошаговые сценарии.
- Определять, в каких случаях online RL действительно даёт прирост качества по сравнению с supervised fine-tuning и другими подходами, а в каких — нет.
- Проводить эксперименты и разбирать результаты не только на уровне метрик, но и на уровне причин: почему модель стала лучше или хуже, насколько устойчив результат и можно ли его перенести на другие типы задач.
Писать ключевой код и развивать инфраструктуру
- Самостоятельно писать и дорабатывать критичные части пайплайнов online RL.
- Делать надёжные и воспроизводимые эксперименты: с понятными версиями данных, конфигами, сравнением запусков и контролем деградаций.
- Выстраивать связку между моделью, средами исполнения, верификаторами и обучающими пайплайнами так, чтобы новые идеи можно было быстро проверять и быстро доводить до практического результата.
- Оставаться сильным инженером и исследователем, а не только руководителем: при необходимости самому разбирать узкие места в коде, экспериментах и качестве данных.
Строить контур данных для обучения
- Организовывать сбор и подготовку данных для online RL в code-домене: задачи, тесты, среды исполнения, логи работы инструментов, синтетические и реальные сценарии.
- Формировать качественные обучающие выборки с хорошим покрытием по типам задач, уровням сложности, языкам программирования и типовым ошибкам модели.
- Встраивать в пайплайны проверки качества: исполнение кода, автоматические верификаторы, контроль утечек, удаление дублей, балансировку по сложности.
- Делать так, чтобы каждый цикл обучения улучшал не только модель, но и сам процесс: появлялись новые данные, новые сложные примеры, более точные критерии качества и лучшее понимание слабых мест модели.
Руководить сильной технической командой
- Руководить командой исследователей и инженеров, задавать высокую планку по качеству решений, скорости работы и глубине проработки.
- Помогать команде превращать исследовательские идеи в работающие решения, которые можно встроить в основной цикл обучения.
- Удерживать баланс между глубиной исследований, инженерной надёжностью и практическим результатом для модели.
Для нас важно
- Отличное владение Python и PyTorch.
- Практический опыт в LLM post-training: RLHF, online RL или смежных направлениях.
- Понимание специфики code-домена: execution-based evaluation, test-based verification, tool use, многошаговые сценарии, разбор типовых ошибок модели.
- Опыт построения пайплайнов данных, а не только работы с уже готовыми датасетами.
- Умение ставить гипотезы, проектировать эксперименты и принимать решения на основе результатов.
- Опыт руководства сильной технической командой.
- Готовность лично писать важные части системы руками.
Будет плюсом
- Опыт построения сред исполнения, sandboxes и верификаторов для code-задач.
- Опыт работы с distributed training или large-scale inference.
- Опыт разработки систем оценки качества для LLM.
- Опыт работы с synthetic data generation, curriculum learning, active data collection.
- Понимание современных open-source стеков для обучения и инференса больших языковых моделей.
- Публикации, open-source вклад или сильный прикладной research track record.
Что предлагаем
- Оклад + годовой бонус.
- Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
- Большую степень влияния на архитектуру решений, методы обучения и качество итоговой модели.
- Команду сильных инженеров и исследователей.
- Возможность совмещать управление направлением с глубокой технической работой.
- Конкурентную компенсацию, премии и расширенный соцпакет.

О компании Сбер
Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.