
Senior Research Engineer (LLM Pretraining)
в Сбер
400 000 — 800 000 ₽/мес на руки
Технологии/инструменты
Мы занимаемся pretrain'ом больших языковых моделей в GigaChat: проектируем архитектуру, подбираем рецепт обучения и поддерживаем весь инженерный контур вокруг него.
Недавно мы обучили MoE-модель на 700 миллиардов параметров — и на этом не собираемся останавливаться. Обучение идёт на кластерах H100 и B200. GigaChat — самый быстрорастущий проект Сбера, и pretrain — его ядро.
Чем занимается команда
- Архитектура и законы масштабирования.
- Рецепт обучения: оптимизаторы, расписание learning rate, нормализация, точность вычислений.
- Устойчивость больших прогонов и ускорение сходимости.
- Диагностика обучения и оценка изменений с опорой на математический аппарат.
- Инженерный контур: воспроизводимость, тесты, CI/CD.
Роль с акцентом на модель, оптимизацию и инфраструктуру обучения, а не на данные. Главная цель — делать обучение быстрее, надёжнее и предсказуемее.
Какие задачи стоят перед командой
- Ускорение цикла «идея → эксперимент → вывод → внедрение».
- Снижение количества ручных прогонов и неочевидных сбоев, повышение воспроизводимости и прозрачности результатов.
- Повышение надёжности больших прогонов.
- Ранняя диагностика деградаций и отделение реальных улучшений от ложных сигналов (расхождение, NaN, коллапс энтропии, артефакты маршрутизации, ложное снижение функции потерь).
- Обеспечение безопасного масштабирования при внедрении крупных архитектурных изменений.
- Анализ влияния сложных архитектур (например, mixture of experts и маршрутизация) на качество, стабильность и скорость обучения.
- Определение и развитие метрик, корректно отражающих изменения в обучении моделей.
Почему мы
- Масштаб. 700B MoE уже обучена, дальше — больше. Кластеры на H100 и B200.
- Публикации. Можно и нужно писать статьи по результатам своей работы — это не ограничивается.
- Команда. В России нет другой команды, которая занимается pretrain'ом на таком масштабе. Коллеги — люди, которые глубоко разбираются в теме.
- Влияние. Вы берёте направление целиком. Это не «выполнять задачи из бэклога», а самостоятельно определять, что важно, и доводить до результата.
Обязанности
-
Взять на себя целое направление внутри pretrain'а и развивать его: от постановки задач и планирования экспериментов до внедрения результатов в основное обучение.
-
Проектировать и проводить эксперименты: формулировать гипотезы, запускать абляции, сравнивать подходы, разбираться в результатах и превращать выводы в решения для основного обучения.
-
Разбираться с нестабильностью на больших прогонах: искать причины деградаций, строить диагностические метрики, предлагать изменения в оптимизаторе, расписании lr, нормализациях, инициализации, клиппинге, точности вычислений и маршрутизации.
-
Работать с архитектурой смеси экспертов (MoE): маршрутизатор, балансировка нагрузки, переполнение, артефакты маршрутизации, влияние на качество и производительность.
-
Поддерживать большие прогоны и продолжения обучения с чекпоинтов: следить за дрейфом, проверять изменения в коде и конфигурации, снижать риск регрессий.
-
Улучшать инженерное качество контура обучения: ревью критичных изменений, стратегия тестирования, воспроизводимость экспериментов, профилирование и устранение узких мест.
Требования
-
Глубокое понимание устройства обучения нейросетей: не на уровне обзоров и пересказов, а на уровне, где вы можете объяснить, почему конкретный прогон расходится, глядя на кривые функции потерь, нормы градиентов и энтропии.
-
Способность самостоятельно взять направление и довести его до результата: от чтения статей и постановки гипотез до внедрения в основной трейн.
-
Практический опыт с PyTorch и именно с обучением моделей, а не только с инференсом.
-
Умение доводить исследовательские идеи до надёжного инженерного решения: воспроизводимость, конфиги, тесты, автоматизация, понятные критерии качества.
-
Хорошую инженерную культуру: аккуратные PR, профилирование, внимание к качеству кода, понятные отчёты об экспериментах.
Будет плюсом
- Опыт со смешанной точностью и распределённым обучением.
- Опыт построения систем оценки моделей или инфраструктуры для экспериментов.
Условия
- Удалённо.
- Возможность оформления в аккредитованную IT-компанию.
- Годовая премия по итогам работы до 6 окладов.
- Регулярный пересмотр зарплат.
- Корпоративный спортзал и зоны отдыха.
- Более 400 программ СберУниверситета для роста.
- Программа адаптации и помощь руководителя на старте.
- Крупнейшее DS&AI community — более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы.
- Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа.
- Ипотека для сотрудников по дисконтной программе.
- СберПрайм+ и скидки у партнёров.
- Бонус за рекомендации в команду.

О компании Сбер
Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.