
Senior MLOps/DevOps Engineer (LLM)
в Сбер
300 000 — 500 000 ₽/мес на руки
Технологии/инструменты
Мы строим платформу для инференса и SFT open-source LLM. Используем продвинутые cutting-edge движки для инференса, много экспериментируем и боремся за каждую дополнительную единицу в Token throughput. Cейчас мы находимся в поиске MLOps-инженера, который вместе с нами продолжит настраивать и улучшать инфраструктуру инференса LLM-моделей и осуществлять вывод решений в прод контур.
Первый этап отбора на эту вакансию — общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным!
Вам предстоит:
- Разрабатывать и оптимизировать инфраструктуру инференса LLM-моделей для минимальной задержки и высокой пропускной способности внутренних приложений и сервисов.
- Обеспечивать масштабируемость и надежность LLM-serving инфраструктуры; выбирать и настраивать инструменты для инференса (sglang, vLLM, llama.cpp).
- Разрабатывать механизмы разграничения доступов к API-сервисам моделей.
- Строить систему observability и мониторинга LLM-инференса.
- Собирать модели в сервисы и интерфейсы (FastAPI, Flask, Tornado, Streamlit, Chainlit и т.д.).
Мы ожидаем:
- Опыт в аналогичной роли от 5 лет.
- Опыт с Linux (сеть, storage, роли/пользователи, менеджмент процессов).
- Уверенное владение Kubernetes (используем Istio Service Mesh).
- Опыт построения высокопроизводительных LLM-сервисов (sglang, vLLM).
- Опыт настройки высоконагруженных прокси-серверов (nginx, Envoy, HAProxy): load balancing, rate limiting, SSL termination, health checks.
- Владение языками: Bash, Python, Groovy (Jenkins scripted).
- Продвинутые навыки в CI/CD и оркестрации моделей.
Будет преимуществом:
- Понимание распределенных систем и GPU-коммуникации (NCCL, MPI, RDMA, InfiniBand).
- Знание служебных компонентов LLM-пайплайна: токенизаторы, KV-cache, контекстное окно.
- Понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores).
- Опыт работы с векторными БД (Opensearch, Qdrant, FAISS, pgvector) для RAG и других задач.
Мы предлагаем:
- Гибридный формат работы (2-3 дня в офисе).
- Годовой бонус и ежегодный пересмотр.
- Расширенный ДМС с первого дня + стоматологию и льготное страхование для семьи.
- Корпоративный университет Сбера, внутреннюю образовательную платформу, участие в IT-конференциях.
- Офис на Кутузовской с зонами отдыха и спортзалом.
- Льготную ипотеку в Сбере, корпоративную пенсионную программу, подписку СберПрайм+, скидки от партнеров и сервисов группы компаний.

О компании Сбер
Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.