Все вакансииData Scientist & Machine LearningRemoteSenior

Senior Research Engineer (LLM Pretraining)

в Сбер

400 000 —‍ 800 000 ₽/‍мес на руки

📍 Россия

Удалённо

Специализация

Data Scientist & Machine Learning

Уровень

Senior

Требуемый опыт

3+ лет

Технологии/инструменты

PyTorch

Мы занимаемся pretrain'ом больших языковых моделей в GigaChat: проектируем архитектуру, подбираем рецепт обучения и поддерживаем весь инженерный контур вокруг него.

Недавно мы обучили MoE-модель на 700 миллиардов параметров — и на этом не собираемся останавливаться. Обучение идёт на кластерах H100 и B200. GigaChat — самый быстрорастущий проект Сбера, и pretrain — его ядро.

Чем занимается команда

Архитектура и законы масштабирования.
Рецепт обучения: оптимизаторы, расписание learning rate, нормализация, точность вычислений.
Устойчивость больших прогонов и ускорение сходимости.
Диагностика обучения и оценка изменений с опорой на математический аппарат.
Инженерный контур: воспроизводимость, тесты, CI/CD.

Роль с акцентом на модель, оптимизацию и инфраструктуру обучения, а не на данные. Главная цель — делать обучение быстрее, надёжнее и предсказуемее.

Какие задачи стоят перед командой

Ускорение цикла «идея → эксперимент → вывод → внедрение».
Снижение количества ручных прогонов и неочевидных сбоев, повышение воспроизводимости и прозрачности результатов.
Повышение надёжности больших прогонов.
Ранняя диагностика деградаций и отделение реальных улучшений от ложных сигналов (расхождение, NaN, коллапс энтропии, артефакты маршрутизации, ложное снижение функции потерь).
Обеспечение безопасного масштабирования при внедрении крупных архитектурных изменений.
Анализ влияния сложных архитектур (например, mixture of experts и маршрутизация) на качество, стабильность и скорость обучения.
Определение и развитие метрик, корректно отражающих изменения в обучении моделей.

Почему мы

Масштаб. 700B MoE уже обучена, дальше — больше. Кластеры на H100 и B200.
Публикации. Можно и нужно писать статьи по результатам своей работы — это не ограничивается.
Команда. В России нет другой команды, которая занимается pretrain'ом на таком масштабе. Коллеги — люди, которые глубоко разбираются в теме.
Влияние. Вы берёте направление целиком. Это не «выполнять задачи из бэклога», а самостоятельно определять, что важно, и доводить до результата.

Обязанности

Взять на себя целое направление внутри pretrain'а и развивать его: от постановки задач и планирования экспериментов до внедрения результатов в основное обучение.
Проектировать и проводить эксперименты: формулировать гипотезы, запускать абляции, сравнивать подходы, разбираться в результатах и превращать выводы в решения для основного обучения.
Разбираться с нестабильностью на больших прогонах: искать причины деградаций, строить диагностические метрики, предлагать изменения в оптимизаторе, расписании lr, нормализациях, инициализации, клиппинге, точности вычислений и маршрутизации.
Работать с архитектурой смеси экспертов (MoE): маршрутизатор, балансировка нагрузки, переполнение, артефакты маршрутизации, влияние на качество и производительность.
Поддерживать большие прогоны и продолжения обучения с чекпоинтов: следить за дрейфом, проверять изменения в коде и конфигурации, снижать риск регрессий.
Улучшать инженерное качество контура обучения: ревью критичных изменений, стратегия тестирования, воспроизводимость экспериментов, профилирование и устранение узких мест.

Требования

Глубокое понимание устройства обучения нейросетей: не на уровне обзоров и пересказов, а на уровне, где вы можете объяснить, почему конкретный прогон расходится, глядя на кривые функции потерь, нормы градиентов и энтропии.
Способность самостоятельно взять направление и довести его до результата: от чтения статей и постановки гипотез до внедрения в основной трейн.
Практический опыт с PyTorch и именно с обучением моделей, а не только с инференсом.
Умение доводить исследовательские идеи до надёжного инженерного решения: воспроизводимость, конфиги, тесты, автоматизация, понятные критерии качества.
Хорошую инженерную культуру: аккуратные PR, профилирование, внимание к качеству кода, понятные отчёты об экспериментах.

Будет плюсом

Опыт со смешанной точностью и распределённым обучением.
Опыт построения систем оценки моделей или инфраструктуры для экспериментов.

Условия

Удалённо.
Возможность оформления в аккредитованную IT-компанию.
Годовая премия по итогам работы до 6 окладов.
Регулярный пересмотр зарплат.
Корпоративный спортзал и зоны отдыха.
Более 400 программ СберУниверситета для роста.
Программа адаптации и помощь руководителя на старте.
Крупнейшее DS&AI community — более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы.
Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа.
Ипотека для сотрудников по дисконтной программе.
СберПрайм+ и скидки у партнёров.
Бонус за рекомендации в команду.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.