Название скрыто

Tech Lead LLM Evaluation

в Название скрыто

от 450 000 ₽/мес на руки

📍 МоскваПолная удалёнка
Специализация
Data Scientist & Machine Learning
Уровень
Lead
Требуемый опыт
3+ лет

Технологии/инструменты

Pythonpandasscikit-learnPyTorchNumPyHuggingFace

Мы — ведущая HR-tech-платформа, где технологии помогают миллионам людей находить работу, а бизнесу — лучших специалистов. В центре нашей культуры — развитие, инициативность и прозрачность.

Сейчас мы активно внедряем GenAI, и перед нами стоит важная задача — построить системную и масштабируемую экспертизу по качеству LLM. В связи с чем мы ищем технического лидера, который поможет построить масштабируемую систему оценки качества LLM-моделей. Ваша зона влияния — десятки продуктовых команд, метрики, бенчмарки и процессы, от которых будет зависеть качество AI-решений.

Чем предстоит заниматься

  • Разрабатывать фреймворк оценки качества LLM и связанных пайплайнов: метрики, бенчмарки, автоматизация.
  • Создавать и внедрять стандарты оценки, поддерживать продуктовые и ML-команды.
  • Проводить сравнение open-source и коммерческих моделей, анализ их сильных и слабых сторон.
  • Выстраивать процессы human и LLM-based оценки (включая разметку и LLM-as-a-judge подход).
  • Анализировать качество моделей и их влияние на продуктовые метрики.
  • Оценивать эффективность GenAI-функций на данных десятков миллионов пользователей.

Что ожидаем

  • Опыт построения систем оценки ML-моделей в продуктах: от offline-метрик до human-оценки и A/B-тестов.
  • Хорошее понимание NLP/LLM-задач: генерация, классификация, ранжирование, reasoning и т.д.
  • Навыки разработки и поддержки пайплайнов оценки (Python, ML-инфраструктура).
  • Опыт организации human-разметки, знание подходов LLM-as-a-judge.
  • Уверенное владение Python и инструментами для работы с моделями (NumPy, pandas, scikit-learn, PyTorch, HuggingFace, LangChain).
  • Интерес к GenAI, знание ключевых техник — prompt engineering, RAG, агенты.
  • Инициативность, готовность продвигать best practices в команде и компании.

Будет плюсом:

  • Вклад в open source или участие в проектах вроде Open LLM Leaderboard, MT-Bench, Arena, trlx и др.
  • Опыт работы с платформами краудсорсинга (Яндекс.Крауд, Toloka и пр.).
  • Практический опыт обучения или внедрения LLM в продукты.

Мы предлагаем

  • Официальное трудоустройство.
  • Гибкое начало дня и возможность работать удаленно.
  • ДМС с первого месяца работы.
  • Обучение за счет компании и возможности профессионального развития.
  • Все подробности рекрутер раскроет лично сразу после отклика.
Ольга Talent Associate
Название скрыто

О компании Название скрыто

Название скрыто под NDA. Детали рекрутер расскажет в личных сообщениях сразу после отклика.

Похожие вакансии

8 000 – 13 000 $/мес на руки
📍 EC, Великобритания, США, полная удалёнка, помощь с переездом
8 000 – 12 000 $/мес на руки
📍 ЕС, Великобритания, США, полная удалёнка, помощь с переездом
7 500 – 10 000 $/мес на руки
Полная удалёнка
470 000 – 480 000 ₽/мес на руки
Можно удалённо из РФ
425 000 – 558 000 ₽/мес на руки
📍 Москва (м. Белорусская), Санкт-Петербург (м. Новочеркасская), Самара, Казань, Нижний Новгород, можно удалённо из РФ