Все вакансииData Scientist & Machine LearningМоскваLead

Vision RL Lead (VLM, GigaChat Vision)

в Сбер

📍 Москва

Офис

Специализация

Data Scientist & Machine Learning

Уровень

Lead

Требуемый опыт

6+ лет

Привет! Это GigaChat Vision — команда, которая делает полный цикл обучения VLM-моделей. Ищем lead-инженера, который возглавит RL-направление: выстроит стратегию, соберёт и вырастит команду и будет отвечать за результат от идеи до продакшна.

Первый этап отбора на эту вакансию — общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придёт приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным!

Обязанности

Формировать техническую стратегию RL-направления: определять приоритетные домены, выбирать подходы, строить роадмап несколько кварталов вперёд.
Принимать ключевые архитектурные решения: выбор алгоритмов, дизайн reward-ов, стратегия масштабирования — и нести за них ответственность.
Определять стратегию данных для RL: какие датасеты нужны, какие требования к качеству, как выстроить пайплайн сбора и фильтрации.
Определять и внедрять метрики оценки reasoning-качества в существующий eval-фреймворк: выбирать, что измерять, проектировать новые метрики под новые домены и возможности модели.
Строить и развивать команду: найм, онбординг, менторинг, ревью. Создавать среду, в которой инженеры развиваются и приносят максимальную пользу.
Координироваться со смежными направлениями (Pretrain, SFT, Infra): синхронизировать планы.
Отслеживать состояние области и переводить свежие идеи из статей в конкретные эксперименты и решения.
Готовность при необходимости лично погружаться в сложные технические задачи: дебажить эксперименты, разбирать аномалии в обучении, доводить до результата руками.

Требования

Глубокое понимание RL для LLM/VLM (RLHF, GRPO, PPO).
Понимание полного цикла обучения VLM/LLM (pretrain → SFT → RL) и того, как решения на каждом этапе влияют на конечный результат.
Опыт технического лидерства команды от 3-х человек: создание роадмапов, декомпозиция задач, приоритизация, менторинг.
Опыт с распределённым обучением (DeepSpeed, FSDP) и inference-фреймворками.
Умение выстраивать процессы в условиях неопределённости.
Опыт взаимодействия со смежными командами и стейкхолдерами.
Системное мышление: способность видеть картину целиком — от данных и reward-дизайна до eval и продакшн-метрик.
Будет плюсом:
Опыт найма и формирования технической команды с нуля.
Публикации или open-source-вклад в области RL/LLM/VLM.
Опыт вывода RL-обученных моделей в продакшн.

Условия

Крупнейшее DS&AI community — более 600 DS-специалистов банка.
Дайджест о самых последних разработках в области DS&AI и отчёты с крупнейших конференций мира.
Возможность быть соавтором НИРов и статей для международных конференций.
Возможность выбрать удобный формат работы: гибрид или офис.
Ежегодный пересмотр зарплаты, годовая премия.
Корпоративный спортзал и зоны отдыха.
Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития.
Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа.
Ипотека выгоднее до 7% для каждого сотрудника.
Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнёров.
Вознаграждение за рекомендацию друзей в команду Сбера.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.