Сбер

Pretrain Data LLM Researcher (GigaChat)

в Сбер

400 000 —‍ 1 000 000 ₽/‍мес до налогов

📍 Москва (м. Кутузовская)
Гибрид
Специализация
Data Engineering / Data Scientist & Machine Learning
Уровень
Lead
Требуемый опыт
5+ лет

Технологии/инструменты

airflow
Apache Airflow
Aws S3
ci
Ci/Cd
Computer Vision
Data
Datalens
Design
Gitlab
Kubernetes
Llm
Machine Learning
ml
Openai
Python
Pytorch
s3
Spark
Ytsaurus
дизайн

Данные — главный рычаг качества фронтирной модели. Станьте тем, кто его держит

GigaChat обучает одна из крупнейших ML-команд страны. Мы знаем то же, что знают OpenAI и Anthropic: качество следующей версии модели определяют претрейн-данные. Поэтому мы ищем не «инженера по датасетам», а исследователя, который будет владеть данными как рычагом роста модели — от стратегии сбора до измеримого прироста на бенчмарках.

Контур влияния короткий и прямой: ваша гипотеза → эксперимент → обучающий прогон → прирост метрик модели, которой пользуются миллионы людей.

Чем предстоит заниматься

  • Вести программу экспериментов с данными.
  • Планировать, запускать и анализировать ablation-эксперименты: сравнивать версии смеси данных, фильтров и порядка обучения при фиксированном вычислительном бюджете. Вы автор эксперимента, а не исполнитель.
  • Оптимизировать смесь и порядок использования данных.
  • Отвечать на главный вопрос претрейна: какие данные, в какой пропорции и в каком порядке должна видеть модель. Применять интуицию scaling laws к распределению токенов.
  • Измерять качество данных.
  • Превращать расплывчатые «хорошие данные» в конкретные измеримые сигналы: классификаторы для отбора документов, насыщенных рассуждениями, кодом и знаниями.
  • Курировать корпус на масштабе триллионов токенов.
  • Проводить точную и fuzzy-дедупликацию, фильтрацию, очистку от утечек бенчмарков, html2text.
  • Собирать данные для agentic-pretrain.
  • Проводить поиск, сбор и генерацию траекторий использования инструментов, многошаговых рассуждений и взаимодействия со средой — чтобы агентные способности закладывались в модель уже на этапе претрейна, а не только в пост-обучении.
  • Создавать рецепты подготовки синтетических данных.
  • Генерировать синтетику под дефицитные способности модели (длинный контекст, рассуждения, код) — с количественной проверкой через эксперименты.
  • Замыкать петлю: «данные → обучение → оценка».
  • Развивать контур бенчмарков и сетапов экспериментов для измерений, чтобы каждое изменение данных имело измеримый ответ.

Что мы даём — и почему это редкость на рынке

  • Вычислительные ресурсы под ваши эксперименты.
  • Один из крупнейших GPU-кластеров в стране.
  • ablation-эксперименты — это обучающие прогоны, и вы сможете запускать их регулярно, а не «раз в квартал, если повезёт».
  • Претрейн с нуля, а не дообучение чужих весов.
  • Мы обучаем собственную модель с первого токена — это значит, что ваши решения по данным определяют фундамент модели, а не косметику поверх чужого претрейна. Сейчас мы учим модели размером 400–700B параметров, и у нас есть амбиции выйти на масштаб 1.5–2T.
  • Опенсорс и мировая планка. Мы выкладываем модели в открытый доступ, и наша цель — достичь мирового уровня среди опенсорс-моделей. Ваша работа будет видна всему сообществу и будет сравниваться с лучшими открытыми моделями мира.
  • Полная ориентация на результат.
  • Минимум бюрократии, максимум ответственности и свободы. Работу меряем не количеством задач, а приростом модели на бенчмарках при том же бюджете. Подтверждённая гипотеза попадает в обучение следующей модели.
  • Развитая инфраструктура.
  • Зрелый стек для работы с данными и экспериментами: S3, YTsaurus, Airflow, DataLens, GitLab CI, wandb.
  • Вы приходите не строить платформу с нуля, а исследовать — пайплайны, оркестрация, трекинг экспериментов и визуализация уже работают.

Кого мы ищем

  • Нам нужны сильные исследователи, а не исполнители. Главное — умение самостоятельно задавать правильные вопросы, проектировать эксперименты и доводить гипотезы до измеримого результата.
  • Опыт именно с LLM не обязателен, если у вас сильная экспериментальная практика в любой области ML — компьютерное зрение, рекомендательные системы, классический ML, наука — специфике больших языковых моделей мы научим.
  • Сильные основы ML и статистики, культура контролируемого эксперимента: гипотеза → дизайн → измерение → вывод.
  • Уверенный Python и опыт обучения моделей на PyTorch или аналогах.
  • Самостоятельность в исследованиях: умение вести направление от вопроса до результата, а не ждать постановки задачи.
  • Понимание цикла обучения LLM хотя бы на уровне теории: токенизация, scaling laws, влияние состава данных на качество.
  • Знакомство с распределённой обработкой данных (Spark, Dask, Airflow, Kubernetes) и открытыми data-проектами (FineWeb, OLMo, Dolma) — как минимум представление о том, как это устроено.

Не обязательно закрывать все вышеперечисленные пункты. Если вы сильный экспериментатор и хотите дорасти до владения всем циклом данных фронтирной модели — давайте поговорим.

Сбер

О компании Сбер

Сфера
Банки / Финтех
Размер
1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.