Сбер

Руководитель команды данных для Post-Training / Online RL в команду GigaChat

в Сбер

650 000 —‍ 850 000 ₽/‍мес на руки

📍 Россия
Удалённо
Специализация
Data Scientist & Machine Learning
Уровень
Senior

Мы развиваем GigaChat и ищем руководителя новой команды данных, которая будет отвечать за подготовку датасетов для post-training больших языковых моделей.

Это роль для человека, который сможет с нуля собрать и развить команду, выстроить процессы и сделать так, чтобы ML-инженеры и аналитики модели быстро получали качественные данные под свои задачи.

Основной фокус — датасеты для online RL, cold start и обучения reward-моделей.

Нам нужен сильный руководитель, который умеет строить data-функцию как полноценное направление: понимать потребности внутренних заказчиков, превращать их в понятные процессы и обеспечивать стабильное производство качественных данных в нужные сроки.

Чем предстоит заниматься

С нуля построить команду данных для post-training

  • Сформировать новую команду, которая будет отвечать за подготовку данных для online RL, cold start и других задач post-training.
  • Нанять и развить ключевых людей в команду, определить роли, зоны ответственности и принципы работы.
  • Выстроить понятные процессы взаимодействия с ML-командами, аналитиками модели и другими внутренними заказчиками.
  • Сделать так, чтобы команда не просто выполняла отдельные запросы, а стала надёжной функцией, на которую можно опираться в регулярном цикле обучения моделей.

Организовать производство датасетов под задачи ML-команд

  • Принимать запросы от ML-инженеров и аналитиков модели, разбирать их и превращать в понятные требования к данным.
  • Организовывать подготовку датасетов для online RL, cold start, reward modeling и других направлений post-training.
  • Обеспечивать хорошее покрытие данных по типам сценариев, уровням сложности, форматам задач и типовым ошибкам модели.
  • Следить за тем, чтобы данные действительно соответствовали задаче заказчика и помогали улучшать качество модели, а не просто формально закрывали запрос.

Выстроить систему качества данных

  • Ввести стандарты качества для датасетов: требования к разметке, структуре данных, полноте, консистентности и документации.
  • Организовать контроль качества данных: проверку на шум, дубли, утечки, перекосы по сценариям и другие типовые проблемы.
  • Сделать данные воспроизводимыми и прозрачными: с понятными версиями, описанием состава, источников и ограничений.
  • Выстроить процесс, при котором качество данных не зависит от ручного героизма отдельных людей, а обеспечивается системно.

Построить устойчивый процесс работы под внутренний заказ

  • Сделать процесс работы с внутренними заказчиками быстрым и предсказуемым: от поступления запроса до передачи готового датасета.
  • Помогать ML-командам уточнять требования к данным, если на старте они сформулированы слишком широко или расплывчато.
  • Находить баланс между скоростью, качеством и стоимостью подготовки данных.
  • Выстроить приоритизацию, чтобы команда эффективно работала сразу с несколькими направлениями и не превращалась в узкое место для всей организации.

Развивать инфраструктуру и инструменты для работы с данными

  • Определять, какие инструменты и пайплайны нужны команде для подготовки, проверки и выпуска датасетов.
  • Помогать выстраивать процессы хранения, версионирования, переиспользования и сопровождения данных.
  • Делать так, чтобы успешные подходы к подготовке данных можно было масштабировать и применять повторно в разных задачах.

Управлять командой и развивать направление

  • Руководить командой дата-специалистов и задавать высокую планку по качеству, скорости и надёжности работы.
  • Развивать внутри команды сильную экспертизу по сбору, подготовке и контролю качества данных для LLM.
  • Формировать культуру, в которой команда глубоко понимает задачу внутренних заказчиков и отвечает за результат, а не просто исполняет заявки.

Для нас важно

  • Опыт руководства командой данных, разметки, data production или смежным направлением.
  • Опыт построения процессов с нуля: найм, распределение ролей, организация потока задач, контроль качества и сроков.
  • Умение работать с внутренними заказчиками и переводить их потребности в понятные и исполнимые требования к данным.
  • Понимание того, как данные влияют на качество ML-моделей, особенно в задачах post-training.
  • Опыт построения устойчивых процессов подготовки датасетов, а не только разовых проектов.
  • Умение выстраивать работу команды в условиях быстро меняющихся требований.
  • Сильные управленческие и коммуникационные навыки.

Будет плюсом

  • Опыт работы с данными для LLM, recommendation systems или других сложных ML-продуктов.
  • Понимание специфики датасетов для online RL, cold start, reward modeling.
  • Опыт построения quality control процессов для больших объёмов данных.
  • Опыт запуска новой команды или нового направления внутри крупной организации.
  • Понимание полного цикла post-training больших языковых моделей.

Что предлагаем

  • Оклад + годовой бонус.
  • Возможность с нуля построить важную для всей организации data-функцию.
  • Большое влияние на качество обучения и развитие GigaChat.
  • Сильные внутренние заказчики и задачи на переднем крае развития LLM.
  • Возможность собрать свою команду и определить принципы её работы.
  • Конкурентную компенсацию, премии и расширенный соцпакет.
Сбер

О компании Сбер

Сфера
Банки / Финтех
Размер
1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.