Мы — ведущая HR-tech-платформа, где технологии помогают миллионам людей находить работу, а бизнесу — лучших специалистов. В центре нашей культуры — развитие, инициативность и прозрачность.
Сейчас мы активно внедряем GenAI, и перед нами стоит важная задача — построить системную и масштабируемую экспертизу по качеству LLM. В связи с чем мы ищем технического лидера, который поможет построить масштабируемую систему оценки качества LLM-моделей. Ваша зона влияния — десятки продуктовых команд, метрики, бенчмарки и процессы, от которых будет зависеть качество AI-решений.
Чем предстоит заниматься
- Разрабатывать фреймворк оценки качества LLM и связанных пайплайнов: метрики, бенчмарки, автоматизация.
- Создавать и внедрять стандарты оценки, поддерживать продуктовые и ML-команды.
- Проводить сравнение open-source и коммерческих моделей, анализ их сильных и слабых сторон.
- Выстраивать процессы human и LLM-based оценки (включая разметку и LLM-as-a-judge подход).
- Анализировать качество моделей и их влияние на продуктовые метрики.
- Оценивать эффективность GenAI-функций на данных десятков миллионов пользователей.
Что ожидаем
- Опыт построения систем оценки ML-моделей в продуктах: от offline-метрик до human-оценки и A/B-тестов.
- Хорошее понимание NLP/LLM-задач: генерация, классификация, ранжирование, reasoning и т.д.
- Навыки разработки и поддержки пайплайнов оценки (Python, ML-инфраструктура).
- Опыт организации human-разметки, знание подходов LLM-as-a-judge.
- Уверенное владение Python и инструментами для работы с моделями (NumPy, pandas, scikit-learn, PyTorch, HuggingFace, LangChain).
- Интерес к GenAI, знание ключевых техник — prompt engineering, RAG, агенты.
- Инициативность, готовность продвигать best practices в команде и компании.
Будет плюсом:
- Вклад в open source или участие в проектах вроде Open LLM Leaderboard, MT-Bench, Arena, trlx и др.
- Опыт работы с платформами краудсорсинга (Яндекс.Крауд, Toloka и пр.).
- Практический опыт обучения или внедрения LLM в продукты.
Мы предлагаем
- Официальное трудоустройство.
- Гибкое начало дня и возможность работать удаленно.
- ДМС с первого месяца работы.
- Обучение за счет компании и возможности профессионального развития.
- Все подробности рекрутер раскроет лично сразу после отклика.