Все вакансииData Scientist & Machine LearningRemoteLead

Online RL (General) / Post-Training LLM в команду GigaChat

в Сбер

650 000 —‍ 850 000 ₽/‍мес на руки

📍 Россия

Удалённо

Специализация

Data Scientist & Machine Learning

Уровень

Lead

Технологии/инструменты

Python

PyTorch

Зарплата: 650 000–850 000 ₽ + годовой бонус.

Мы развиваем GigaChat и ищем сильного руководителя направления online RL в general-домене. Это роль для человека, который умеет одновременно развивать методы обучения моделей, писать важный код своими руками и выстраивать процессы сбора и подготовки данных.

Основная цель направления — делать модель более полезной, понятной и приятной для пользователей: чтобы она лучше следовала инструкциям, давала более уместные и качественные ответы, лучше удерживала формат и стиль, реже ошибалась в типовых пользовательских сценариях и в целом больше нравилась людям.

Нам нужен не просто менеджер, а сильный технический руководитель, который способен глубоко погружаться в детали, самостоятельно собирать ключевые части решения и доводить идеи до реального роста качества модели.

Чем предстоит заниматься

Развивать направление online RL для general-сценариев

Определять, как должно развиваться направление online RL в general-домене: какие пользовательские сценарии для нас наиболее важны, как измерять прогресс и что в первую очередь ограничивает рост качества модели.
Вести направление целиком: от постановки гипотез и плана работ до внедрения результатов в регулярный цикл обучения модели.
Принимать решения о приоритетах между развитием методов, сбором данных, инфраструктурой и системой оценки качества.

Разрабатывать и улучшать методы обучения

Развивать подходы post-training и online RL для general-задач.
Обучать и улучшать reward-модели, которые помогают приближать поведение модели к пользовательским ожиданиям.
Продумывать и внедрять способы оценки качества, которые позволяют лучше измерять, насколько модель следует инструкциям, удерживает формат ответа, соблюдает ограничения, ведёт себя последовательно и даёт ответы, которые действительно нравятся пользователям.
Определять, в каких случаях online RL действительно даёт прирост качества по сравнению с supervised fine-tuning и другими подходами, а в каких — нет.
Проводить эксперименты и разбирать результаты не только на уровне метрик, но и на уровне причин: почему модель стала лучше или хуже, насколько устойчив результат и можно ли его перенести на другие типы задач и сценариев.

Писать ключевой код и развивать инфраструктуру

Самостоятельно писать и дорабатывать пайплайн online RL.
Реализовывать и улучшать пайплайны обучения reward-моделей, preference-моделей и связанных компонентов post-training контура.
Делать надёжные и воспроизводимые эксперименты: с понятными версиями данных, конфигами, сравнением запусков и контролем деградаций.
Выстраивать связку между моделью, системой оценки, reward-моделями и обучающими пайплайнами так, чтобы новые идеи можно было быстро проверять и быстро доводить до практического результата.
Оставаться сильным инженером и исследователем, а не только руководителем: при необходимости самому разбирать узкие места в коде, экспериментах и качестве данных.

Строить контур данных для обучения

Организовывать сбор и подготовку данных для online RL в general-домене: instruction-following сценарии, разметку предпочтений, пользовательские сигналы, синтетические и реальные сценарии.
Формировать качественные обучающие выборки с хорошим покрытием по типам пользовательских задач, стилям запросов, уровням сложности, форматным ограничениям и типовым ошибкам модели.
Продумывать, какие данные действительно помогают делать модель более полезной и приятной для пользователя, а какие создают лишь локальный рост на метриках.
Встраивать в пайплайны проверки качества: контроль утечек, удаление дублей, балансировку по сложности, фильтрацию шумной разметки и контроль качества reward-данных.
Делать так, чтобы каждый цикл обучения улучшал не только модель, но и сам процесс: появлялись новые данные, уточнялись критерии качества, лучше выделялись слабые сценарии и типовые причины недовольства пользователей.

Улучшать пользовательское качество модели

Разбирать, какие именно свойства делают модель лучше для человека: полезность, следование инструкциям, понятность, уместность, качество аргументации, соблюдение формата, стабильность поведения.
Помогать команде переводить абстрактные требования вроде “модель должна нравиться пользователю” в понятные критерии, данные, эксперименты и измеримые результаты.
Находить компромиссы между разными требованиями к модели: полезностью, строгостью следования инструкции, краткостью, безопасностью, естественностью и устойчивостью поведения.

Руководить сильной технической командой

Руководить командой исследователей и инженеров, задавать высокую планку по качеству решений, скорости работы и глубине проработки.
Помогать команде превращать исследовательские идеи в работающие решения, которые можно встроить в основной цикл обучения.
Удерживать баланс между глубиной исследований, инженерной надёжностью и практическим результатом для модели.

Для нас важно

Отличное владение Python и PyTorch.
Практический опыт в LLM post-training: RLHF, online RL или смежных направлениях.
Понимание того, как обучать модели под пользовательские ожидания.
Опыт построения пайплайнов данных, а не только работы с уже готовыми датасетами.
Умение ставить гипотезы, проектировать эксперименты и принимать решения на основе результатов.
Опыт руководства сильной технической командой.
Готовность лично писать важные части системы руками.

Будет плюсом

Опыт обучения reward-моделей, judge-моделей или preference-моделей для LLM.
Опыт работы с human feedback, synthetic preference data и quality annotation pipelines.
Опыт построения систем оценки качества для general assistant-сценариев.
Опыт работы с distributed training или large-scale inference.
Понимание современных open-source стеков для обучения и инференса больших языковых моделей.
Публикации, open-source вклад или сильный прикладной research track record.

Что предлагаем

Оклад + годовой бонус.
Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
Большую степень влияния на архитектуру решений, методы обучения и качество итоговой модели.
Команду сильных инженеров и исследователей.
Возможность совмещать управление направлением с глубокой технической работой.
Конкурентную компенсацию, премии и расширенный соцпакет.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.