Вакансия в архиве
Компания больше не ищет сотрудника. Посмотрите похожие предложения

Все вакансииData Scientist & Machine LearningМоскваLead

Tech Lead LLM Evaluation

в Название скрыто

от 450 000 ₽/‍мес на руки

📍 Москва

Гибрид

📍 Весь мир

Удалённо

Специализация

Data Scientist & Machine Learning

Уровень

Lead

Требуемый опыт

3+ лет

Технологии/инструменты

Python

Pandas

scikit-learn

PyTorch

NumPy

HuggingFace

Мы — ведущая HR-tech-платформа, где технологии помогают миллионам людей находить работу, а бизнесу — лучших специалистов. В центре нашей культуры — развитие, инициативность и прозрачность.

Сейчас мы активно внедряем GenAI, и перед нами стоит важная задача — построить системную и масштабируемую экспертизу по качеству LLM. В связи с чем мы ищем технического лидера, который поможет построить масштабируемую систему оценки качества LLM-моделей. Ваша зона влияния — десятки продуктовых команд, метрики, бенчмарки и процессы, от которых будет зависеть качество AI-решений.

Чем предстоит заниматься

Разрабатывать фреймворк оценки качества LLM и связанных пайплайнов: метрики, бенчмарки, автоматизация.
Создавать и внедрять стандарты оценки, поддерживать продуктовые и ML-команды.
Проводить сравнение open-source и коммерческих моделей, анализ их сильных и слабых сторон.
Выстраивать процессы human и LLM-based оценки (включая разметку и LLM-as-a-judge подход).
Анализировать качество моделей и их влияние на продуктовые метрики.
Оценивать эффективность GenAI-функций на данных десятков миллионов пользователей.

Что ожидаем

Опыт построения систем оценки ML-моделей в продуктах: от offline-метрик до human-оценки и A/B-тестов.
Хорошее понимание NLP/LLM-задач: генерация, классификация, ранжирование, reasoning и т.д.
Навыки разработки и поддержки пайплайнов оценки (Python, ML-инфраструктура).
Опыт организации human-разметки, знание подходов LLM-as-a-judge.
Уверенное владение Python и инструментами для работы с моделями (NumPy, pandas, scikit-learn, PyTorch, HuggingFace, LangChain).
Интерес к GenAI, знание ключевых техник — prompt engineering, RAG, агенты.
Инициативность, готовность продвигать best practices в команде и компании.

Будет плюсом:

Вклад в open source или участие в проектах вроде Open LLM Leaderboard, MT-Bench, Arena, trlx и др.
Опыт работы с платформами краудсорсинга (Яндекс.Крауд, Toloka и пр.).
Практический опыт обучения или внедрения LLM в продукты.

Мы предлагаем

Официальное трудоустройство.
Гибкое начало дня и возможность работать удаленно.
ДМС с первого месяца работы.
Обучение за счет компании и возможности профессионального развития.
Все подробности рекрутер раскроет лично сразу после отклика.

О компании Название скрыто

Название скрыто под NDA. Детали рекрутер расскажет в личных сообщениях сразу после отклика.