Сбер

Vision Pretrain Data Lead (VLM, GigaChat Vision)

в Сбер

от 500 000 ₽/‍мес до налогов

📍 Москва
Офис
Специализация
Data Engineering / Data Scientist & Machine Learning
Уровень
Lead
Требуемый опыт
6+ лет

Технологии/инструменты

machine learning

Pretrain является самым масштабным и затратным этапом обучения VLM.

На нем закладывается огромный фундамент возможностей модели, который позволяет в дальнейшем ей быть полезной пользователю и решать задачи CV. Нам требуется эксперт, который понимает, какие данные двигают качество, весь скоуп задач компьютерного зрения и подходы к их решению, будет собирать процессы вокруг обогащения претрейна самыми качественными и необходимыми данными для множества доменов, оценивать качество и сложность датасетов, создавать полезные дашборды, заботиться о воспроизводимости. Нужен хороший организатор дата-команды и дата-пайплайнов с сильными техническими навыками.

Первый этап отбора на эту вакансию — общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным!

Обязанности

  • Строить data-engine для pretrain и stage 1.5.
  • Отвечать за sourcing, curation, dedup, filtering, balancing и mixture design.
  • Выявлять слабые места в данных, влияющие на качество модели, составлять план по улучшению и реализовывать план в срок.
  • Управлять качеством данных и воспроизводимостью.
  • Организовывать статистику, срезы и мониторинг по данным.
  • Работать с training/eval-командами.
  • Приоритизировать ручную и полуавтоматическую обработку там, где это эффективнее полной автоматизации.
  • Нанимать и вести дата-инженеров.

Требования

  • Опыт работы в production-команде (сборка окружения, выкатка моделей как оффлайн, так и онлайн, большие нагрузки как преимущество).
  • Понимание, как данные влияют на качество VLM.
  • Опыт построения дата-пайплайнов и data-quality процессов.
  • Умение ставить задачи дата-инженерам, девопсам/ML-опсам, ML-разработчикам.
  • Умение приоритизировать задачи, распределять имеющиеся ресурсы.

Условия

  • Крупнейшее DS&AI community — более 600 DS-специалистов банка.
  • Дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира.
  • Возможность быть соавтором НИРов и статей для международных конференций.
  • Возможность выбрать удобный формат работы: гибрид или офис.
  • Ежегодный пересмотр зарплаты, годовая премия.
  • Корпоративный спортзал и зоны отдыха.
  • Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития.
  • Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа.
  • Ипотека выгоднее до 7% для каждого сотрудника.
  • Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров.
  • Вознаграждение за рекомендацию друзей в команду Сбера.
Сбер

О компании Сбер

Сфера
Банки / Финтех
Размер
1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.