Сбер

Руководитель направления ML Pretrain LLM

в Сбер

650 000 —‍ 850 000 ₽/‍мес на руки

📍 Россия
Удалённо
Специализация
Data Scientist & Machine Learning
Уровень
Lead

Технологии/инструменты

AI
Design
LLM
Machine Learning
Market Research
ML
Open Source
Python
PyTorch
Research
Training

Мы развиваем GigaChat и ищем сильного руководителя направления ML pretrain больших языковых моделей. Недавно мы обучили MoE-модель на 700 миллиардов параметров и не собираемся останавливаться — обучение идёт на кластерах H100 и B200, а pretrain является ядром самого быстрорастущего AI-проекта Сбера.

Это роль для человека, который возьмёт на себя архитектурную часть pretrain: design-моделей, законы масштабирования, выбор и адаптация attention / MoE / позиционных схем, а также все архитектурные решения, которые определяют, какой именно будет следующая флагманская модель GigaChat.

Нам нужен не просто менеджер, а сильный технический руководитель, который способен глубоко погружаться в детали, самостоятельно собирать ключевые части решения и доводить архитектурные идеи до реального роста качества модели на масштабе.

Чем предстоит заниматься

Развивать архитектуру моделей GigaChat

  • Определять, как должна развиваться архитектура pretrain-моделей: какие направления наиболее важны, как измерять прогресс и что в первую очередь ограничивает рост качества модели.
  • Проектировать архитектуру флагманских моделей и отвечать за ключевые архитектурные решения: attention, позиционные схемы (RoPE и варианты), нормализации, активации, инициализация.
  • Развивать MoE-архитектуру: маршрутизация, балансировка экспертов, устойчивость маршрутизатора, влияние на качество и производительность.
  • Работать с long-context и мультимодальностью на уровне архитектуры: что именно нужно менять в модели, чтобы эти возможности работали стабильно.

Изучать и применять законы масштабирования

  • Проводить scaling-эксперименты и на их основе принимать решения по размеру модели, ширине / глубине, числу и размеру экспертов, размерам батча и длительности обучения.
  • Предсказывать, как архитектурные изменения поведут себя при переходе с небольших абляций на полный масштаб.
  • Определять и развивать метрики, которые корректно отражают архитектурные изменения в обучении моделей.
  • Определять, в каких случаях архитектурные изменения действительно дают прирост качества по сравнению с более простыми baseline-ами, а в каких — нет.

Анализировать стабильность архитектурных решений

  • Разбираться с нестабильностью на больших прогонах со стороны архитектуры: почему конкретная конфигурация расходится, где проявляются артефакты маршрутизации, коллапс энтропии, неустойчивости в attention.
  • Предлагать изменения в нормализациях, клиппинге, точности вычислений и структуре блоков, которые делают обучение более предсказуемым.
  • Обеспечивать безопасное масштабирование при внедрении крупных архитектурных изменений в основной трейн.

Писать ключевой код и оставаться сильным исследователем

  • Самостоятельно писать и дорабатывать архитектурные компоненты и абляции.
  • Делать надёжные и воспроизводимые эксперименты: понятные версии данных, конфиги, сравнение запусков, контроль деградаций.
  • Читать статьи, воспроизводить ключевые результаты и адаптировать лучшие идеи под наши задачи и инфраструктуру.
  • Оставаться сильным инженером и исследователем, а не только руководителем: при необходимости самому разбирать узкие места в коде, экспериментах и настройках обучения.

Руководить сильной технической командой

  • Руководить командой исследователей и инженеров, работающих над архитектурой, задавать высокую планку по качеству решений, скорости работы и глубине проработки.
  • Помогать команде превращать архитектурные идеи в работающие решения, которые можно встроить в основной цикл обучения.
  • Удерживать баланс между глубиной исследований, инженерной надёжностью и практическим результатом для модели.

Для нас важно

  • Отличное владение Python и PyTorch.
  • Глубокое понимание устройства обучения нейросетей: не на уровне обзоров, а на уровне, где вы можете объяснить, почему конкретная архитектурная конфигурация расходится, глядя на кривые функции потерь, нормы градиентов и энтропии.
  • Глубокое понимание архитектуры LLM: Transformer, attention (MHA/GQA/MLA), RoPE и варианты позиционных эмбеддингов, нормализации, инициализации, long-context, MoE.
  • Практический опыт с обучением больших моделей (а не только инференсом) и проведением архитектурных абляций.
  • Способность самостоятельно взять направление и довести его до результата: от чтения статей и постановки гипотез до внедрения в основной трейн.
  • Умение ставить гипотезы, проектировать эксперименты и принимать решения на основе результатов.
  • Опыт руководства сильной технической командой и готовность лично писать важные части системы руками.

Будет плюсом

  • Опыт работы с MoE-архитектурами: маршрутизатор, балансировка нагрузки, переполнение, артефакты маршрутизации.
  • Опыт проведения scaling-экспериментов и работы с законами масштабирования.
  • Опыт работы с long-context и мультимодальными расширениями LLM.
  • Опыт работы с distributed training (5D-параллелизм: DP/TP/PP/EP/SP) и large-scale инференсом.
  • Публикации, open-source-вклад или сильный прикладной research track record.
  • Понимание современных open-source стеков для обучения больших языковых моделей.

Что предлагаем

  • Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
  • Большую степень влияния на архитектуру решений, методы обучения и качество итоговой модели.
  • Команду сильных инженеров и исследователей.
  • Возможность совмещать управление направлением с глубокой технической работой.
  • Конкурентную компенсацию, премии и расширенный соцпакет.
Сбер

О компании Сбер

Сфера
Банки / Финтех
Размер
1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.