Все вакансииData Scientist & Machine LearningRemoteSenior

Руководитель направления Online RL (STEM) / Post-Training LLM в команду GigaChat

в Сбер

650 000 —‍ 850 000 ₽/‍мес на руки

📍 Россия

Удалённо

Специализация

Data Scientist & Machine Learning

Уровень

Senior

Технологии/инструменты

Python

PyTorch

Зарплата: 650 000–850 000 ₽ + годовой бонус.

Мы развиваем GigaChat и ищем сильного руководителя направления online RL в домене STEM (математика, естественные науки, инженерные и технические дисциплины). Это роль для человека, который умеет одновременно развивать методы обучения моделей, глубоко разбираться в предметной области и выстраивать процессы сбора и подготовки данных.

Нам нужен не просто менеджер, а сильный технический руководитель, который способен глубоко погружаться в детали, самостоятельно собирать ключевые части решения и доводить идеи до реального роста качества модели.

Чем предстоит заниматься

Развивать направление online RL для STEM-задач

Определять, как должно развиваться направление online RL в STEM-домене: какие задачи для нас наиболее важны, как измерять прогресс и что в первую очередь ограничивает рост качества модели.
Вести направление целиком: от постановки гипотез и плана работ до внедрения результатов в регулярный цикл обучения модели.
Принимать решения о приоритетах между развитием методов, сбором данных, инфраструктурой и системой оценки качества.

Разрабатывать и улучшать методы обучения

Развивать подходы post-training и online RL для задач по математике, физике, химии, биологии и другим STEM-дисциплинам.
Продумывать и внедрять способы оценки качества, которые помогают модели лучше решать реальные задачи: строить цепочки рассуждений, находить верные ответы, корректно применять формулы и методы, работать с многошаговыми задачами.
Определять, в каких случаях online RL действительно даёт прирост качества по сравнению с supervised fine-tuning и другими подходами, а в каких — нет.
Проводить эксперименты и разбирать результаты не только на уровне метрик, но и на уровне причин: почему модель стала лучше или хуже, насколько устойчив результат и можно ли его перенести на другие типы задач.

Писать ключевой код и развивать инфраструктуру

Самостоятельно писать и дорабатывать критичные части пайплайнов online RL.
Делать надёжные и воспроизводимые эксперименты: с понятными версиями данных, конфигами, сравнением запусков и контролем деградаций.
Выстраивать связку между моделью, верификаторами, reward-сигналами и обучающими пайплайнами так, чтобы новые идеи можно было быстро проверять и быстро доводить до практического результата.
Оставаться сильным инженером и исследователем, а не только руководителем: при необходимости самому разбирать узкие места в коде, экспериментах и качестве данных.

Строить контур данных для обучения

Организовывать сбор и подготовку данных для online RL в STEM-домене: задачи разной сложности, эталонные решения, формальные и автоматические верификаторы, синтетические и реальные сценарии.
Формировать качественные обучающие выборки с хорошим покрытием по дисциплинам, уровням сложности (от школьных до олимпиадных и университетских задач), типам рассуждений и типовым ошибкам модели.
Встраивать в пайплайны проверки качества: символьную и численную верификацию ответов, проверку промежуточных шагов рассуждений, контроль утечек, удаление дублей, балансировку по сложности и предметным областям.
Делать так, чтобы каждый цикл обучения улучшал не только модель, но и сам процесс: появлялись новые данные, новые сложные примеры, более точные критерии качества и лучшее понимание слабых мест модели.

Руководить сильной технической командой

Руководить командой исследователей и инженеров, задавать высокую планку по качеству решений, скорости работы и глубине проработки.
Помогать команде превращать исследовательские идеи в работающие решения, которые можно встроить в основной цикл обучения.
Удерживать баланс между глубиной исследований, инженерной надёжностью и практическим результатом для модели.

Для нас важно

Отличное владение Python и PyTorch.
Практический опыт в LLM post-training: RLHF, online RL или смежных направлениях.
Понимание специфики STEM-домена: формальная верификация ответов, chain-of-thought reasoning, работа с математической нотацией, многошаговые решения, типовые ошибки моделей в рассуждениях.
Умение ставить гипотезы, проектировать эксперименты и принимать решения на основе результатов.
Опыт руководства сильной технической командой.
Готовность лично писать важные части системы руками.

Будет плюсом

Сильный математический или естественнонаучный бэкграунд (профильное образование, олимпиадный опыт, публикации).
Опыт построения верификаторов и reward-моделей для задач STEM.
Опыт построения пайплайнов данных, а не только работы с уже готовыми датасетами.
Опыт работы с distributed training или large-scale inference.
Опыт разработки систем оценки качества для LLM (бенчмарки, LLM-as-a-judge, process reward models).
Опыт работы с synthetic data generation, curriculum learning, active data collection.
Понимание современных open-source стеков для обучения и инференса больших языковых моделей.
Публикации, open-source вклад или сильный прикладной research track record.

Что предлагаем

Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
Большую степень влияния на архитектуру решений, методы обучения и качество итоговой модели.
Команду сильных инженеров и исследователей.
Возможность совмещать управление направлением с глубокой технической работой.
Конкурентную компенсацию — оклад+премии, расширенный соцпакет.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.