Все вакансииData Scientist & Machine LearningRemoteSenior

ML-инженер (AI Quality / Evaluation) в команду GigaChat

в Сбер

350 000 —‍ 600 000 ₽/‍мес на руки

📍 Россия

Удалённо

Специализация

Data Scientist & Machine Learning

Уровень

Senior

Технологии/инструменты

Python

Git

CI/CD

Bash

Мы развиваем GigaChat и ищем сильного ML-инженера в команду AI Quality. Наша команда — это главный навигатор развития модели. Мы не просто тестируем сборки, мы исследуем новые возможности GigaChat, сопоставляем его работу с реальными продуктовыми требованиями и находим точки для кратного роста качества. Публичные бенчмарки покрывают далеко не всё и часто оторваны от жизни, поэтому мы строим собственную инфраструктуру замеров, которая честно показывает, как модель решает настоящие задачи пользователей.

Это роль для человека, который возьмёт на себя ответственность за сквозной цикл оценки: от ресёрча ландшафта и проектирования датасетов под продуктовые вызовы до написания надёжного кода и внедрения бенчмарка в общий харнесс. Ищем не столько исполнителя, собирающий дашборды, сколько мотивированного инженера-исследователя. Тот, кто глубоко понимает, что нужно продукту, замечает узкие места именного базового качества модели, вспоминает актуальную статью с подходящим методом оценки и приходит с готовым планом: «давайте замерим вот так, потому что именно это покажет наш реальный прогресс».

Чем предстоит заниматься

Развивать инфраструктуру и пайплайны замеров (Evaluation Harness).

Реализовывать и поддерживать бенчмарки: парсинг датасетов, промпт-шаблоны, постпроцессинг ответов, подсчёт метрик.
Обеспечивать железобетонную воспроизводимость: версионирование конфигов, CI-интеграция. Любой замер должен выдавать идентичный результат и сегодня, и через полгода.
Разбирать статьи и репозитории новых бенчмарков, понимать их методологию и встраивать в наш пайплайн с автоматическим запуском.

Строить и масштабировать LLM-as-a-Judge.

Развивать пайплайны моделей-судей: глубокий промпт-инжиниринг, калибровка, контроль смещений (bias), оценка консистентности и сравнение судей между собой.
Проектировать, настраивать и автоматизировать arena-style оценки.

Создавать целевые датасеты и анализировать данные.

Проектировать новые арены и тестовые наборы под конкретные слабые места модели и проверяемые гипотезы.
Вытаскивать сигналы о деградациях из пользовательских логов, собирать промпты, следить за актуальностью и контаминацией существующих датасетов.
Проводить аналитику и быстро писать скрипты для ответа на вопрос: «почему просела метрика и что именно сломалось».

Проводить research и влиять на релизы.

Самостоятельно отслеживать state-of-the-art в области evaluation, инициировать внедрение лучших подходов — не дожидаясь постановки задачи сверху.
Готовить аналитические отчёты по замерам, формулировать жёсткие go/no-go рекомендации и аргументированно отстаивать их перед командой pretrain/post-train.

Для нас важно

Уверенный Python и инженерная культура: код ревьюится, тестируется и не гниёт. Уверенное владение Git, CI/CD, Bash на уровне самостоятельной поддержки сервисов. Использование AI-ассистентов и знание best practices горячо приветствуются.
Глубокое понимание устройства LLM: не на уровне обзоров, а на практике. Вы знаете, что такое chat template, почему ризонеры могут давать разные результаты при нулевой температуре, и почему один и тот же бенчмарк можно замерить тремя способами, получив три разных числа. Практический опыт инференса open-source моделей (vLLM, SGLang).
Насмотренность и инициативность: вы умеете не просто следить за потоком статей, но в нужный момент вытащить из памяти релевантный подход, связать его с текущей задачей и конвертировать в конкретный план действий.
Базовая статистическая грамотность: доверительные интервалы, bootstrap, чёткое понимание того, когда разница в метрике статистически значима, а когда — это просто шум.

Будет плюсом

Опыт работы с evaluation-фреймворками (lm-evaluation-harness, HELM, BigCode Evaluation) или написания собственных харнессов.
Опыт с LLM-judge подходами и глубокое знакомство с профильной литературой (MT-Bench, AlpacaEval, Chatbot Arena).
Публикации или заметный open-source вклад в области evaluation.

Что предлагаем

Сильные и сложные задачи на переднем крае развития русскоязычных LLM.
Огромную степень влияния на продукт: от ваших метрик и рекомендаций зависит, пойдет ли флагманская модель в релиз.
Команду сильных инженеров и исследователей, задающих высокую планку инженерной надёжности.
Конкурентную компенсацию, премии и расширенный соцпакет.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.