Сбер

Data Acquisition Tech Lead (GigaChat)

в Сбер

700 000 —‍ 1 200 000 ₽/‍мес до налогов

📍 Москва
Москва (м. Кутузовская)
Гибрид
Специализация
Data Scientist & Machine Learning / Data Engineering
Уровень
Lead
Английский
C1/C2 — Advanced / Fluent
Требуемый опыт
5+ лет

Технологии/инструменты

Nlp
Python
Ytsaurus
Go
C++

Мы создаём языковые модели нового поколения, и качество обучающих данных лежит в основе всего, что мы делаем. Команда сбора данных отвечает за поиск источников, веб-краулинг, загрузку и лицензирование разнообразных высококачественных датасетов, на которых обучаются наши модели. В этой роли вы будете отвечать за техническое развитие систем веб-краулинга и загрузки данных, которые поставляют петабайты текстов в обучающие пайплайны. Это роль для сильного техлида: человека, который не только проектирует и развивает критически важные системы, но и задаёт инженерные стандарты, помогает команде принимать сильные технические решения и распространяет экспертизу внутри направления. Позиция предполагает значительное влияние на архитектуру и развитие команды и даёт естественную траекторию роста в сторону роли тимлида.

Чем предстоит заниматься

  • Проектировать, развивать и поддерживать масштабируемую инфраструктуру веб-краулинга, способную обрабатывать миллиарды страниц на разных языках и из разных доменов.
  • Развивать пайплайны загрузки данных, которые преобразуют сырой контент в структурированные, дедуплицированные и обогащённые метаданными датасеты, готовые к дальнейшей обработке.
  • Разрабатывать алгоритмы планирования и приоритизации краулинга, повышающие актуальность, покрытие и разнообразие данных в условиях ограничений по вычислительным ресурсам и пропускной способности.
  • Создавать и поддерживать системы поиска и индексирования, которые позволяют исследователям и инженерам находить, запрашивать и отбирать данные из полного корпуса.
  • Вместе с командой обработки данных определять схемы, сигналы качества и интерфейсы передачи данных между этапами сбора и подготовки.
  • Обеспечивать наблюдаемость систем: метрики, логирование, алертинг и инструменты для быстрого реагирования на инциденты.
  • Оценивать и подключать внешние источники данных, согласовывая технические требования к форматам поставки и API.
  • Выступать техническим ориентиром для команды: помогать коллегам в выборе решений, проводить архитектурные обсуждения, участвовать в code review и повышать инженерную зрелость направления.
  • Менторить инженеров команды и распространять лучшие практики проектирования, эксплуатации и развития систем сбора данных.

Мы ожидаем

  • Высшее образование в области computer science, математики или смежной области.
  • Не менее 6 лет опыта в разработке ПО, из которых как минимум 3 года — в создании масштабных распределённых систем.
  • Глубокую экспертизу в веб-краулинге, скрейпинге или информационном поиске в масштабе миллиардов документов.
  • Уверенное владение Python, Go или C++, а также опыт работы с Kubernetes или аналогичными системами оркестрации контейнеров.
  • Практический опыт работы с распределёнными системами хранения данных и key-value- или документоориентированными базами данных.
  • Хорошее понимание сетевых протоколов и веб-стандартов, значимых для краулинга.
  • Опыт ведения сложных технических инициатив — от архитектурного замысла до production-эксплуатации.
  • Способность быть техническим лидером для команды: аргументированно принимать решения, синхронизировать инженеров вокруг архитектурного подхода и развивать экспертизу коллег.
  • Сильные письменные и устные коммуникативные навыки; умение влиять на технические решения в кросс-функциональном взаимодействии.

Будет плюсом

  • Опыт работы с YTSaurus.
  • Опыт эксплуатации веб-краулеров петабайтного масштаба.
  • Бэкграунд в NLP, извлечении текста или определении языка для многоязычных корпусов.
  • Опыт менторинга инженеров и неформального лидерства в сильной технической команде.

Что предлагаем

  • Кластеры YTSaurus с большим количеством ресурсов: десятки петабайт + десятки тысяч ядер.
  • Сильная команда выпускников МФТИ, ВШЭ, МГУ, много людей с опытом работы в профильном БигТехе.
  • комфортный современный офис рядом с м. Кутузовская.
  • гибридный формат работы (2 дня в офисе, 3 дня на удалёнке).
  • ежегодный пересмотр зарплаты, годовая премия.
  • корпоративный спортзал и зоны отдыха.
  • система обучения для профессионального и карьерного развития.
  • расширенный полис ДМС с первого дня работы и страхование для семьи.
  • льготная программа ипотеки для сотрудников.
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнёров.
  • вознаграждение за рекомендацию друзей в команду Сбера.
Сбер

О компании Сбер

Сфера
Банки / Финтех
Размер
1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.