
Руководитель направления ML Pretrain LLM
в Сбер
650 000 — 850 000 ₽/мес на руки
Технологии/инструменты
Мы развиваем GigaChat и ищем сильного руководителя направления ML pretrain больших языковых моделей. Недавно мы обучили MoE-модель на 700 миллиардов параметров и не собираемся останавливаться — обучение идёт на кластерах H100 и B200, а pretrain является ядром самого быстрорастущего AI-проекта Сбера.
Это роль для человека, который возьмёт на себя архитектурную часть pretrain: design-моделей, законы масштабирования, выбор и адаптация attention / MoE / позиционных схем, а также все архитектурные решения, которые определяют, какой именно будет следующая флагманская модель GigaChat.
Нам нужен не просто менеджер, а сильный технический руководитель, который способен глубоко погружаться в детали, самостоятельно собирать ключевые части решения и доводить архитектурные идеи до реального роста качества модели на масштабе.
Чем предстоит заниматься
Развивать архитектуру моделей GigaChat
- Определять, как должна развиваться архитектура pretrain-моделей: какие направления наиболее важны, как измерять прогресс и что в первую очередь ограничивает рост качества модели.
- Проектировать архитектуру флагманских моделей и отвечать за ключевые архитектурные решения: attention, позиционные схемы (RoPE и варианты), нормализации, активации, инициализация.
- Развивать MoE-архитектуру: маршрутизация, балансировка экспертов, устойчивость маршрутизатора, влияние на качество и производительность.
- Работать с long-context и мультимодальностью на уровне архитектуры: что именно нужно менять в модели, чтобы эти возможности работали стабильно.
Изучать и применять законы масштабирования
- Проводить scaling-эксперименты и на их основе принимать решения по размеру модели, ширине / глубине, числу и размеру экспертов, размерам батча и длительности обучения.
- Предсказывать, как архитектурные изменения поведут себя при переходе с небольших абляций на полный масштаб.
- Определять и развивать метрики, которые корректно отражают архитектурные изменения в обучении моделей.
- Определять, в каких случаях архитектурные изменения действительно дают прирост качества по сравнению с более простыми baseline-ами, а в каких — нет.
Анализировать стабильность архитектурных решений
- Разбираться с нестабильностью на больших прогонах со стороны архитектуры: почему конкретная конфигурация расходится, где проявляются артефакты маршрутизации, коллапс энтропии, неустойчивости в attention.
- Предлагать изменения в нормализациях, клиппинге, точности вычислений и структуре блоков, которые делают обучение более предсказуемым.
- Обеспечивать безопасное масштабирование при внедрении крупных архитектурных изменений в основной трейн.
Писать ключевой код и оставаться сильным исследователем
- Самостоятельно писать и дорабатывать архитектурные компоненты и абляции.
- Делать надёжные и воспроизводимые эксперименты: понятные версии данных, конфиги, сравнение запусков, контроль деградаций.
- Читать статьи, воспроизводить ключевые результаты и адаптировать лучшие идеи под наши задачи и инфраструктуру.
- Оставаться сильным инженером и исследователем, а не только руководителем: при необходимости самому разбирать узкие места в коде, экспериментах и настройках обучения.
Руководить сильной технической командой
- Руководить командой исследователей и инженеров, работающих над архитектурой, задавать высокую планку по качеству решений, скорости работы и глубине проработки.
- Помогать команде превращать архитектурные идеи в работающие решения, которые можно встроить в основной цикл обучения.
- Удерживать баланс между глубиной исследований, инженерной надёжностью и практическим результатом для модели.
Для нас важно
- Отличное владение Python и PyTorch.
- Глубокое понимание устройства обучения нейросетей: не на уровне обзоров, а на уровне, где вы можете объяснить, почему конкретная архитектурная конфигурация расходится, глядя на кривые функции потерь, нормы градиентов и энтропии.
- Глубокое понимание архитектуры LLM: Transformer, attention (MHA/GQA/MLA), RoPE и варианты позиционных эмбеддингов, нормализации, инициализации, long-context, MoE.
- Практический опыт с обучением больших моделей (а не только инференсом) и проведением архитектурных абляций.
- Способность самостоятельно взять направление и довести его до результата: от чтения статей и постановки гипотез до внедрения в основной трейн.
- Умение ставить гипотезы, проектировать эксперименты и принимать решения на основе результатов.
- Опыт руководства сильной технической командой и готовность лично писать важные части системы руками.
Будет плюсом
- Опыт работы с MoE-архитектурами: маршрутизатор, балансировка нагрузки, переполнение, артефакты маршрутизации.
- Опыт проведения scaling-экспериментов и работы с законами масштабирования.
- Опыт работы с long-context и мультимодальными расширениями LLM.
- Опыт работы с distributed training (5D-параллелизм: DP/TP/PP/EP/SP) и large-scale инференсом.
- Публикации, open-source-вклад или сильный прикладной research track record.
- Понимание современных open-source стеков для обучения больших языковых моделей.
Что предлагаем
- Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
- Большую степень влияния на архитектуру решений, методы обучения и качество итоговой модели.
- Команду сильных инженеров и исследователей.
- Возможность совмещать управление направлением с глубокой технической работой.
- Конкурентную компенсацию, премии и расширенный соцпакет.

О компании Сбер
Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.