Мы разрабатываем высокопроизводительные CUDA-операторы для PyTorch, обеспечивающие обучение и инференс мультимодальных моделей с максимальной утилизацией GPU-ресурсов. Фокус — низкоуровневая оптимизация, кастомные ядра, memory management и эффективная работа с новыми архитектурами GPU.
Обязанности
- Разработка и оптимизация кастомных CUDA-операторов и расширений для PyTorch (C++/CUDA).
- Профилирование и устранение узких мест в вычислительных ядрах (Nsight Compute, nvprof).
- Оптимизация использования памяти (shared memory, registers, coalesced access, persistent kernels).
- Реализация алгоритмов параллельных вычислений с учётом архитектурных особенностей современных GPU (Ampere, Hopper и новее).
- Интеграция CUDA-оптимизаций в распределённые пайплайны обучения и инференса.
- Тесная работа с командами Research и Distributed Learning для поддержки кастомных моделей и операторов.
Требования
- Экспертный уровень C++ и CUDA.
- Опыт оптимизации производительности для NVIDIA GPU.
- Знание внутреннего устройства PyTorch (ATen, dispatcher, TensorIterator).
- Навыки профилирования на GPU и поиска и устранения узких мест в реализации нейросетевых операторов.
- Опыт работы с Mixed Precision и кастомными кернелами.
Бонус:
Опыт с Triton, CUTLASS, cuBLASLt, NCCL; участие в open-source проектах PyTorch.
Условия
- Комфортный современный офис рядом с м. Кутузовская.
- Формат работы гибрид.
- Ежегодный пересмотр зарплаты, квартальная и годовая премия.
- Корпоративный спортзал и зоны отдыха.
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития.
- Программа адаптации и помощь руководителя на старте.
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа.
- Ипотека выгоднее до 7% для каждого сотрудника.
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров.
- Вознаграждение за рекомендацию друзей в команду Сбера.