Сбер

Руководитель аналитики метрик качества GigaChat (LLM Evaluation)

в Сбер

650 000 —‍ 1 100 000 ₽/‍мес на руки

Можно удалённо из РФ
Специализация
Data Analytics & BI / Data Scientist & Machine Learning
Уровень
Lead

Технологии/инструменты

Python
pandas
NumPy

Мы — команда GigaChat ML. Делаем полный цикл обучения модели, от претрейна до алайнмента. Нам нужен руководитель, который будет фултайм владеть системой метрик качества GigaChat:

  • Измерять качество на бенчмарках и реальных логах.
  • Находить слабые места и причины деградаций.
  • Развивать метрики и процессы, ускорять внедрение новых бенчмарков и системы замера.

Эта роль про фунадментальное качество модели и измерения (не про продуктовые метрики DAU/Retention и не про сбор данных как основной фокус).

Что предстоит делать

Владение системой качества и метрик (end-to-end ownership)

  • Определять и поддерживать “quality scorecard” для GigaChat: что считаем качеством, какие метрики ключевые, какие — нет.
  • Держать фокус на эффективности системы и снижать стоимость измерений.

Бенчмарки и регрессионное тестирование

  • Постоянно актуализировать пакет бенчмарков под ключевые сценарии, чтобы успевать за быстро развивающейся сферой LLM.
  • Внедрить регулярное сравнительное тестирование версий модели и конкурентов по единой.

Аналитика логов и диагностика слабых мест

  • Анализировать логи и пользовательский фидбэк с позиции качества: кластеризация проблем, тематические срезы, частотность, тяжесть.
  • Связывать проблемы в логах с бенчмарками: проблемы должны быть измеримы.

Разработка и внедрение метрик качества

  • Разрабатывать новые метрики/прокси метрики (автоматические и полуавтоматические), калибровать их против эталонных оценок.
  • Продумывать, где нужна человеческая оценка, где достаточно автоматики, как снижать стоимость измерений без потери достоверности.
  • Внедрять метрики в процессы: CI/релизные проверки, мониторинг качества, алерты.

Эксперименты и принятие решений

  • Проектировать и анализировать A/B-эксперименты качества (в онлайне и/или в контролируемых тестах), делать выводы: “что улучшилось/ухудшилось”, “почему”, “что делать дальше”, “можно ли катить в прод”.

Для нас важно

  • Сильный Python (pandas, NumPy), уверенная аналитика данных, умение быстро превращать «сырые логи» в выводы.
  • Хорошее понимание оценки качества LLM: какие типы метрик бывают, где они ломаются, как валидировать метрику, как избегать “gaming”.
  • Понимание статистики и экспериментов: доверительные интервалы, тесты, множественные сравнения, дизайн A/B, интерпретация результатов.
  • Практический опыт работы с LLM (Open Source и/или proprietary): понимание специфики инструкционного поведения, галлюцинаций, safety ограничений.
  • Навыки продуктового и инженерного мышления: формулировать критерии качества так, чтобы они становились механизмом управления.

Будет плюсом

  • Опыт построения evaluation фреймворков и “evaluation harness” (любые внутренние/внешние тулзы), интеграция оценок в CI/CD.
  • Опыт с LLM based evaluation (LLM judge) и методами калибровки/контроля смещения судьи.
  • Знание систем аналитики и хранилищ (SQL, ClickHouse/BigQuery/Spark/S3), мониторинг/дашборды (Grafana/Superset/Looker и аналоги).

Условия

  • Удалённо по России.
  • Возможность оформления в аккредитованную IT-компанию.
  • Годовая премия по итогам работы до 6 окладов.
  • Регулярный пересмотр зарплат.
  • Корпоративный спортзал и зоны отдыха.
  • Более 400 программ СберУниверситета для роста.
  • Программа адаптации и помощь руководителя на старте.
  • Крупнейшее DS&AI community — более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы.
  • Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа.
  • Ипотека для сотрудников по дисконтной программе.
  • СберПрайм+ и скидки у партнёров.
  • Бонус за рекомендации в команду.
Команда HR Сбер рекрутер
Сбер

О компании Сбер

Сфера
Банки / Финтех
Размер
1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.