
Разработчик инфраструктуры RL-обучения LLM
в Яндекс (Поисковый портал)
250 000 — 500 000 ₽/мес на руки
Технологии/инструменты
О вакансии
Мы создаём инфраструктуру для обучения и дообучения больших языковых (LLM) и визуально-языковых (VLM) моделей, которые используются в Алисе, Поиске, Рекламе и других сервисах Яндекса. Современное обучение таких моделей — это сложная система, которая включает десятки тысяч серверов, миллионы вычислительных ядер и многоуровневые соединения между ними. Наша задача — сделать эту систему максимально эффективной, рационально используя вычислительные ресурсы и минимизируя риски сбоев.
Обучение моделей превратилось в задачу управления сложными распределёнными системами. Нужно обеспечивать отказоустойчивость, эффективную доставку данных и минимизировать задержки в коммуникациях. Чем сложнее система, тем больше точек отказа, а чем больше ресурсов нужно на обучение, тем выше накладные расходы на запуск. Наша команда работает на стыке ML-математики и «железной» инфраструктуры: мы должны понимать и особенности аппаратного обеспечения (GPU, сети, шины данных, диски, память), и нюансы самого процесса обучения: составные части, взаимодействие компонентов, узкие места.
Один из популярных подходов к обучению LLM — обучение с подкреплением, Reinforcement Learning, RL. С ростом популярности этого метода появляются все более сложные подходы, увеличивается потребность в вычислительных ресурсах — и, как следствие, возникает необходимость строить специализированную инфраструктуру.
Какие задачи вас ждут:
- Оптимизация инфраструктуры RL-обучения - Вам предстоит улучшать ключевые компоненты: оптимизировать доставку и сохранение данных, оптимизировать коммуникации между блоками обучения, повышать эффективность работы внутри блоков.
- Развитие инструментов диагностики
Вы будете создавать и совершенствовать инструменты, которые позволят быстро выявлять и устранять инфраструктурные проблемы. - Повышение отказоустойчивости инфраструктуры
Предстоит реализовывать подходы, которые сделают инфраструктуру обучения устойчивой к различным ошибкам и сбоям. - Исследование и внедрение современных решений
Будете изучать новейшие подходы к организации инфраструктуры RL-обучения, оценивать их эффективность и внедрять в реальные проекты.
Мы ждем, что вы:
- Знаете Python и имеете опыт системного программирования, разработки библиотек или фреймворков.
- Хорошо знакомы и работали на практике с фреймворком PyTorch и распределённым обучением через torch.distributed.
- Владеете подходами параллелизации: понимаете data parallelism, tensor parallelism, pipeline parallelism, expert parallelism для распределённого инференса или обучения.
- Интересуетесь LLM и MLOps: понимаете задачи и вызовы, которые связаны с эксплуатацией больших моделей в продакшне.
- Умеете эффективно работать в команде и делиться знаниями.
Будет плюсом, если вы:
- Участвовали в создании инфраструктуры обучения ML-моделей.
- Внедряли и оптимизировали RL-решения.
- Работали с библиотеками RL-обучения для LLM: veRL, slime, NeMo-RL, SkyRL и другими, а также с библиотеками инференса: vLLM, SGLang и TRTLLM.
- Владеете C++ и имеете опыт низкоуровневого программирования и оптимизации.
- Имеете опыт с GPU NVIDIA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы с использованием CUDA или Triton.
Что мы предлагаем
Высокий совокупный доход
- Премии каждые полгода для всех, кто успешно прошёл ревью.
Офисы, в которые хочется ходить
- В офисах есть всё, что нужно для комфортной работы: удобные рабочие зоны, уютные места для отдыха, кофе-пойнты для спокойных перерывов.
- В офисах в Москве, Санкт-Петербурге, Екатеринбурге, Новосибирске, Казани и Нижнем Новгороде есть тренажёрные залы со всем необходимым.
Расширенная медицинская страховка
Начинает работать с первого месяца. В неё входят:
- Плановая и неотложная помощь, стоматология, расширенный превентивный чекап, телемедицина 24/7.
- Психотерапия в онлайн-сервисах наших партнёров.
- После года работы добавляется лазерная коррекция зрения, после двух — ведение беременности и роды. Также мы покрываем 80% стоимости ДМС для супругов и детей.
Возможности для роста
- Есть всё, чтобы учиться: внутренняя платформа с 100+ курсами, менторство и программы для руководителей.
- Оплачиваем участие в профильных конференциях и помогаем подготовиться к публичным выступлениям.
- Если для работы нужен иностранный язык, поможем организовать обучение и оплатим 50% стоимости.
И ещё
- Делаем закрытые мероприятия: вечеринки, фестивали и другие ивенты.
- В Яндексе много клубов по интересам, Random Coffee, сервисы для знакомств и взаимопомощи. А наши спортивные клубы регулярно участвуют в забегах, триатлонах и других соревнованиях.
- На портале скидок масса специальных предложений для сотрудников от наших партнёров.


О компании Яндекс (Поисковый портал)
Яндекс — одна из крупнейших ИТ-компаний в России. Мы развиваем самую популярную в стране поисковую систему и создаём сервисы, которые помогают людям в повседневных делах. С их помощью можно искать информацию в интернете, слушать музыку, выбирать товары и места, заказывать еду, перемещаться по городу и делать многое другое. Яндекс предлагает также продукты для бизнеса.