Мы разрабатываем и внедряем передовые методы оптимизации обучения и инференса сверхкрупных нейронных сетей (десятки миллиардов параметров) для мультимодальных генеративных моделей. Фокус — компиляция, квантизация, дистилляция, sparsity и другие техники ускорения, без компромисса по качеству.
Обязанности
- Исследование и внедрение методов оптимизации обучения (gradient checkpointing, activation recomputation, mixed-precision, оптимизация графа вычислений).
- Разработка и интеграция техник инференс-ускорения: quantization (INT8, FP8), pruning, structured sparsity, knowledge distillation.
- Использование и доработка ML-компиляторов (TorchDyname, TorchInductor, TensorRT, и другие) для оптимизации вычислительных графов.
- Совместная работа с командами CUDA operators и Distributed Learning для обеспечения максимальной производительности на GPU.
- Проектирование и проведение экспериментов по компрессии моделей и сравнительный анализ trade-off’ов скорость/качество.
Требования
- Экспертный уровень Python, PyTorch.
- Опыт работы с ML-компиляторами и оптимизацией инференса и обучения.
- Глубокое понимание методов квантизации, дистилляции и спарсификации.
- Навыки профилирования и оптимизации производительности (PyTorch Profiler, Nsight Systems, perf).
- Понимание архитектур современных LLM и Diffusion-моделей.
Бонус:
Опыт оптимизации на CPU/ASIC/FPGA, публикации на NeurIPS/ICML/MLSys, знание C++.
Условия
- Комфортный современный офис рядом с м. Кутузовская.
- Формат работы гибрид.
- Ежегодный пересмотр зарплаты, квартальная и годовая премия.
- Корпоративный спортзал и зоны отдыха.
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития.
- Программа адаптации и помощь руководителя на старте.
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа.
- Ипотека выгоднее до 7% для каждого сотрудника.
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров.
- Вознаграждение за рекомендацию друзей в команду Сбера.