Technical Lead CUDA / Triton Kernel Development (LLM Acceleration)

в Сбер

600 000 —‍ 1 000 000 ₽/‍мес на руки

📍 Россия

Удалённо

Специализация

Data Scientist & Machine Learning / C++ / Architect

Уровень

Lead

Требуемый опыт

5+ лет

Технологии/инструменты

Nsight

Triton

PyTorch

torch.compile

TensorRT

CUDA C++

PTX

Sass

NVIDIA GPU

О проекте

Мы создаём самые сильные языковые модели в России и одни из самых больших в мире такие как GigaChat3 Ultra. Создание таких систем требует оптимизации архитектуры под GPU и решение проблем с масштабированием на кластера из тысяч видеокарт. Все это — нетривиальные инженерные вызовы, решение которых закладывается в следующие поколения наших моделей. У нас вы будете работать с современным набором видеокарт: NVIDIA B200/H100. Наш стек полностью интегрирован с PyTorch/TensorRT/ONNX и активно использует Triton, CUDA, CUTLASS и кастомные ядра для оптимизации: FlashAttention, PagedAttention, DeepEP, и др.

Среди наших достижений — реализация собственных ядер для распределённого обучения: асинхронный Expert & Tensor Parallel, а также Async Liger. Но хочется больше

Цель — снизить latency и увеличить throughput, оптимизировать новые архитектуры, делать их обучение экономически выгодным по сравнению с классическими LLM & MoE

Ключевые обязанности

Лидировать направление по разработке и оптимизации CUDA/Triton-ядер для LLM.
Тесно взаимодействовать с ML-инженерами и research-командами для понимания workload’ов и bottleneck’ов (например: multinode inference, sparse attention, mixture-of-experts, long-context inference).
Участвовать в open-source инициативах (возможно — форки/патчи в Triton, upstream в PyTorch/TensorRT/SGLang).

Мы ожидаем, что вы

Имеете 5+ лет опыта в low-level GPU программировании (CUDA C++, PTX/SASS, shared memory/coalescing/warp-shuffle, async memcpy, stream management).
Глубоко понимаете архитектуру NVIDIA GPU (Tensor Cores, warp execution, occupancy, L2 cache hierarchy) и умеете профилировать через Nsight.
Владеете Triton (или готовы освоить быстро) и понимаете его trade-offs vs чистая CUDA.
Есть опыт работы с современными фреймворками: PyTorch (custom ops, torch.compile), TensorRT (plugins), возможно — SGLang.
Имеете опыт управления технической командой (2+ лет как lead/tech lead).

Условия

Формат работы — удаленный или гибрид на выбор из любого города РФ.
Ежегодный пересмотр зарплаты, годовая премия.
Зоны отдыха.
Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития.
Программа адаптации и помощь руководителя на старте (для стартовых позиций).
Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа.
Ипотека для сотрудников выгоднее до 7%.
Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров.
Вознаграждение за рекомендацию друзей в команду Сбера.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.