Все вакансииData Scientist & Machine LearningRemoteLead

Руководитель направления ML Pretrain LLM

в Сбер

650 000 —‍ 850 000 ₽/‍мес на руки

📍 Россия

Удалённо

Специализация

Data Scientist & Machine Learning

Уровень

Lead

Технологии/инструменты

Design

LLM

Machine Learning

Market Research

Open Source

Python

PyTorch

Research

Training

Мы развиваем GigaChat и ищем сильного руководителя направления ML pretrain больших языковых моделей. Недавно мы обучили MoE-модель на 700 миллиардов параметров и не собираемся останавливаться — обучение идёт на кластерах H100 и B200, а pretrain является ядром самого быстрорастущего AI-проекта Сбера.

Это роль для человека, который возьмёт на себя архитектурную часть pretrain: design-моделей, законы масштабирования, выбор и адаптация attention / MoE / позиционных схем, а также все архитектурные решения, которые определяют, какой именно будет следующая флагманская модель GigaChat.

Нам нужен не просто менеджер, а сильный технический руководитель, который способен глубоко погружаться в детали, самостоятельно собирать ключевые части решения и доводить архитектурные идеи до реального роста качества модели на масштабе.

Чем предстоит заниматься

Развивать архитектуру моделей GigaChat

Определять, как должна развиваться архитектура pretrain-моделей: какие направления наиболее важны, как измерять прогресс и что в первую очередь ограничивает рост качества модели.
Проектировать архитектуру флагманских моделей и отвечать за ключевые архитектурные решения: attention, позиционные схемы (RoPE и варианты), нормализации, активации, инициализация.
Развивать MoE-архитектуру: маршрутизация, балансировка экспертов, устойчивость маршрутизатора, влияние на качество и производительность.
Работать с long-context и мультимодальностью на уровне архитектуры: что именно нужно менять в модели, чтобы эти возможности работали стабильно.

Изучать и применять законы масштабирования

Проводить scaling-эксперименты и на их основе принимать решения по размеру модели, ширине / глубине, числу и размеру экспертов, размерам батча и длительности обучения.
Предсказывать, как архитектурные изменения поведут себя при переходе с небольших абляций на полный масштаб.
Определять и развивать метрики, которые корректно отражают архитектурные изменения в обучении моделей.
Определять, в каких случаях архитектурные изменения действительно дают прирост качества по сравнению с более простыми baseline-ами, а в каких — нет.

Анализировать стабильность архитектурных решений

Разбираться с нестабильностью на больших прогонах со стороны архитектуры: почему конкретная конфигурация расходится, где проявляются артефакты маршрутизации, коллапс энтропии, неустойчивости в attention.
Предлагать изменения в нормализациях, клиппинге, точности вычислений и структуре блоков, которые делают обучение более предсказуемым.
Обеспечивать безопасное масштабирование при внедрении крупных архитектурных изменений в основной трейн.

Писать ключевой код и оставаться сильным исследователем

Самостоятельно писать и дорабатывать архитектурные компоненты и абляции.
Делать надёжные и воспроизводимые эксперименты: понятные версии данных, конфиги, сравнение запусков, контроль деградаций.
Читать статьи, воспроизводить ключевые результаты и адаптировать лучшие идеи под наши задачи и инфраструктуру.
Оставаться сильным инженером и исследователем, а не только руководителем: при необходимости самому разбирать узкие места в коде, экспериментах и настройках обучения.

Руководить сильной технической командой

Руководить командой исследователей и инженеров, работающих над архитектурой, задавать высокую планку по качеству решений, скорости работы и глубине проработки.
Помогать команде превращать архитектурные идеи в работающие решения, которые можно встроить в основной цикл обучения.
Удерживать баланс между глубиной исследований, инженерной надёжностью и практическим результатом для модели.

Для нас важно

Отличное владение Python и PyTorch.
Глубокое понимание устройства обучения нейросетей: не на уровне обзоров, а на уровне, где вы можете объяснить, почему конкретная архитектурная конфигурация расходится, глядя на кривые функции потерь, нормы градиентов и энтропии.
Глубокое понимание архитектуры LLM: Transformer, attention (MHA/GQA/MLA), RoPE и варианты позиционных эмбеддингов, нормализации, инициализации, long-context, MoE.
Практический опыт с обучением больших моделей (а не только инференсом) и проведением архитектурных абляций.
Способность самостоятельно взять направление и довести его до результата: от чтения статей и постановки гипотез до внедрения в основной трейн.
Умение ставить гипотезы, проектировать эксперименты и принимать решения на основе результатов.
Опыт руководства сильной технической командой и готовность лично писать важные части системы руками.

Будет плюсом

Опыт работы с MoE-архитектурами: маршрутизатор, балансировка нагрузки, переполнение, артефакты маршрутизации.
Опыт проведения scaling-экспериментов и работы с законами масштабирования.
Опыт работы с long-context и мультимодальными расширениями LLM.
Опыт работы с distributed training (5D-параллелизм: DP/TP/PP/EP/SP) и large-scale инференсом.
Публикации, open-source-вклад или сильный прикладной research track record.
Понимание современных open-source стеков для обучения больших языковых моделей.

Что предлагаем

Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
Большую степень влияния на архитектуру решений, методы обучения и качество итоговой модели.
Команду сильных инженеров и исследователей.
Возможность совмещать управление направлением с глубокой технической работой.
Конкурентную компенсацию, премии и расширенный соцпакет.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.