
Pretrain Data LLM Researcher (GigaChat)
в Сбер
400 000 — 1 000 000 ₽/мес до налогов
Технологии/инструменты
Данные — главный рычаг качества фронтирной модели. Станьте тем, кто его держит
GigaChat обучает одна из крупнейших ML-команд страны. Мы знаем то же, что знают OpenAI и Anthropic: качество следующей версии модели определяют претрейн-данные. Поэтому мы ищем не «инженера по датасетам», а исследователя, который будет владеть данными как рычагом роста модели — от стратегии сбора до измеримого прироста на бенчмарках.
Контур влияния короткий и прямой: ваша гипотеза → эксперимент → обучающий прогон → прирост метрик модели, которой пользуются миллионы людей.
Чем предстоит заниматься
- Вести программу экспериментов с данными.
- Планировать, запускать и анализировать ablation-эксперименты: сравнивать версии смеси данных, фильтров и порядка обучения при фиксированном вычислительном бюджете. Вы автор эксперимента, а не исполнитель.
- Оптимизировать смесь и порядок использования данных.
- Отвечать на главный вопрос претрейна: какие данные, в какой пропорции и в каком порядке должна видеть модель. Применять интуицию scaling laws к распределению токенов.
- Измерять качество данных.
- Превращать расплывчатые «хорошие данные» в конкретные измеримые сигналы: классификаторы для отбора документов, насыщенных рассуждениями, кодом и знаниями.
- Курировать корпус на масштабе триллионов токенов.
- Проводить точную и fuzzy-дедупликацию, фильтрацию, очистку от утечек бенчмарков, html2text.
- Собирать данные для agentic-pretrain.
- Проводить поиск, сбор и генерацию траекторий использования инструментов, многошаговых рассуждений и взаимодействия со средой — чтобы агентные способности закладывались в модель уже на этапе претрейна, а не только в пост-обучении.
- Создавать рецепты подготовки синтетических данных.
- Генерировать синтетику под дефицитные способности модели (длинный контекст, рассуждения, код) — с количественной проверкой через эксперименты.
- Замыкать петлю: «данные → обучение → оценка».
- Развивать контур бенчмарков и сетапов экспериментов для измерений, чтобы каждое изменение данных имело измеримый ответ.
Что мы даём — и почему это редкость на рынке
- Вычислительные ресурсы под ваши эксперименты.
- Один из крупнейших GPU-кластеров в стране.
- ablation-эксперименты — это обучающие прогоны, и вы сможете запускать их регулярно, а не «раз в квартал, если повезёт».
- Претрейн с нуля, а не дообучение чужих весов.
- Мы обучаем собственную модель с первого токена — это значит, что ваши решения по данным определяют фундамент модели, а не косметику поверх чужого претрейна. Сейчас мы учим модели размером 400–700B параметров, и у нас есть амбиции выйти на масштаб 1.5–2T.
- Опенсорс и мировая планка. Мы выкладываем модели в открытый доступ, и наша цель — достичь мирового уровня среди опенсорс-моделей. Ваша работа будет видна всему сообществу и будет сравниваться с лучшими открытыми моделями мира.
- Полная ориентация на результат.
- Минимум бюрократии, максимум ответственности и свободы. Работу меряем не количеством задач, а приростом модели на бенчмарках при том же бюджете. Подтверждённая гипотеза попадает в обучение следующей модели.
- Развитая инфраструктура.
- Зрелый стек для работы с данными и экспериментами: S3, YTsaurus, Airflow, DataLens, GitLab CI, wandb.
- Вы приходите не строить платформу с нуля, а исследовать — пайплайны, оркестрация, трекинг экспериментов и визуализация уже работают.
Кого мы ищем
- Нам нужны сильные исследователи, а не исполнители. Главное — умение самостоятельно задавать правильные вопросы, проектировать эксперименты и доводить гипотезы до измеримого результата.
- Опыт именно с LLM не обязателен, если у вас сильная экспериментальная практика в любой области ML — компьютерное зрение, рекомендательные системы, классический ML, наука — специфике больших языковых моделей мы научим.
- Сильные основы ML и статистики, культура контролируемого эксперимента: гипотеза → дизайн → измерение → вывод.
- Уверенный Python и опыт обучения моделей на PyTorch или аналогах.
- Самостоятельность в исследованиях: умение вести направление от вопроса до результата, а не ждать постановки задачи.
- Понимание цикла обучения LLM хотя бы на уровне теории: токенизация, scaling laws, влияние состава данных на качество.
- Знакомство с распределённой обработкой данных (Spark, Dask, Airflow, Kubernetes) и открытыми data-проектами (FineWeb, OLMo, Dolma) — как минимум представление о том, как это устроено.
Не обязательно закрывать все вышеперечисленные пункты. Если вы сильный экспериментатор и хотите дорасти до владения всем циклом данных фронтирной модели — давайте поговорим.

О компании Сбер
Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.