Pretrain Data LLM Researcher (GigaChat)

в Сбер

от 400 000 ₽/‍мес до налогов

📍 Москва (м. Кутузовская)

Гибрид

Специализация

Data Engineering / Data Scientist & Machine Learning

Уровень

Lead

Требуемый опыт

5+ лет

Технологии/инструменты

Apache Airflow

AWS S3

CI/CD

Computer Vision

Data

DataLens

Design

GitLab

Kubernetes

LLM

Machine Learning

OpenAI

Python

PyTorch

Apache Spark

Ytsaurus

дизайн

Данные — главный рычаг качества фронтирной модели. Станьте тем, кто его держит

GigaChat обучает одна из крупнейших ML-команд страны. Мы знаем то же, что знают OpenAI и Anthropic: качество следующей версии модели определяют претрейн-данные. Поэтому мы ищем не «инженера по датасетам», а исследователя, который будет владеть данными как рычагом роста модели — от стратегии сбора до измеримого прироста на бенчмарках.

Контур влияния короткий и прямой: ваша гипотеза → эксперимент → обучающий прогон → прирост метрик модели, которой пользуются миллионы людей.

Чем предстоит заниматься

Вести программу экспериментов с данными.
Планировать, запускать и анализировать ablation-эксперименты: сравнивать версии смеси данных, фильтров и порядка обучения при фиксированном вычислительном бюджете. Вы автор эксперимента, а не исполнитель.
Оптимизировать смесь и порядок использования данных.
Отвечать на главный вопрос претрейна: какие данные, в какой пропорции и в каком порядке должна видеть модель. Применять интуицию scaling laws к распределению токенов.
Измерять качество данных.
Превращать расплывчатые «хорошие данные» в конкретные измеримые сигналы: классификаторы для отбора документов, насыщенных рассуждениями, кодом и знаниями.
Курировать корпус на масштабе триллионов токенов.
Проводить точную и fuzzy-дедупликацию, фильтрацию, очистку от утечек бенчмарков, html2text.
Собирать данные для agentic-pretrain.
Проводить поиск, сбор и генерацию траекторий использования инструментов, многошаговых рассуждений и взаимодействия со средой — чтобы агентные способности закладывались в модель уже на этапе претрейна, а не только в пост-обучении.
Создавать рецепты подготовки синтетических данных.
Генерировать синтетику под дефицитные способности модели (длинный контекст, рассуждения, код) — с количественной проверкой через эксперименты.
Замыкать петлю: «данные → обучение → оценка».
Развивать контур бенчмарков и сетапов экспериментов для измерений, чтобы каждое изменение данных имело измеримый ответ.

Кого мы ищем

Нам нужны сильные исследователи, а не исполнители. Главное — умение самостоятельно задавать правильные вопросы, проектировать эксперименты и доводить гипотезы до измеримого результата.
Опыт именно с LLM не обязателен, если у вас сильная экспериментальная практика в любой области ML — компьютерное зрение, рекомендательные системы, классический ML, наука — специфике больших языковых моделей мы научим.
Сильные основы ML и статистики, культура контролируемого эксперимента: гипотеза → дизайн → измерение → вывод.
Уверенный Python и опыт обучения моделей на PyTorch или аналогах.
Самостоятельность в исследованиях: умение вести направление от вопроса до результата, а не ждать постановки задачи.
Понимание цикла обучения LLM хотя бы на уровне теории: токенизация, scaling laws, влияние состава данных на качество.
Знакомство с распределённой обработкой данных (Spark, Dask, Airflow, Kubernetes) и открытыми data-проектами (FineWeb, OLMo, Dolma) — как минимум представление о том, как это устроено.

Не обязательно закрывать все вышеперечисленные пункты. Если вы сильный экспериментатор и хотите дорасти до владения всем циклом данных фронтирной модели — давайте поговорим.

Что мы даём — и почему это редкость на рынке

Вычислительные ресурсы под ваши эксперименты.
Один из крупнейших GPU-кластеров в стране.
ablation-эксперименты — это обучающие прогоны, и вы сможете запускать их регулярно, а не «раз в квартал, если повезёт».
Претрейн с нуля, а не дообучение чужих весов.
Мы обучаем собственную модель с первого токена — это значит, что ваши решения по данным определяют фундамент модели, а не косметику поверх чужого претрейна. Сейчас мы учим модели размером 400–700B параметров, и у нас есть амбиции выйти на масштаб 1.5–2T.
Опенсорс и мировая планка. Мы выкладываем модели в открытый доступ, и наша цель — достичь мирового уровня среди опенсорс-моделей. Ваша работа будет видна всему сообществу и будет сравниваться с лучшими открытыми моделями мира.
Полная ориентация на результат.
Минимум бюрократии, максимум ответственности и свободы. Работу меряем не количеством задач, а приростом модели на бенчмарках при том же бюджете. Подтверждённая гипотеза попадает в обучение следующей модели.
Развитая инфраструктура.
Зрелый стек для работы с данными и экспериментами: S3, YTsaurus, Airflow, DataLens, GitLab CI, wandb.
Вы приходите не строить платформу с нуля, а исследовать — пайплайны, оркестрация, трекинг экспериментов и визуализация уже работают.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.