
Data Acquisition Tech Lead (GigaChat)
в Сбер
700 000 — 1 200 000 ₽/мес до налогов
Технологии/инструменты
Мы создаём языковые модели нового поколения, и качество обучающих данных лежит в основе всего, что мы делаем. Команда сбора данных отвечает за поиск источников, веб-краулинг, загрузку и лицензирование разнообразных высококачественных датасетов, на которых обучаются наши модели. В этой роли вы будете отвечать за техническое развитие систем веб-краулинга и загрузки данных, которые поставляют петабайты текстов в обучающие пайплайны. Это роль для сильного техлида: человека, который не только проектирует и развивает критически важные системы, но и задаёт инженерные стандарты, помогает команде принимать сильные технические решения и распространяет экспертизу внутри направления. Позиция предполагает значительное влияние на архитектуру и развитие команды и даёт естественную траекторию роста в сторону роли тимлида.
Чем предстоит заниматься
- Проектировать, развивать и поддерживать масштабируемую инфраструктуру веб-краулинга, способную обрабатывать миллиарды страниц на разных языках и из разных доменов.
- Развивать пайплайны загрузки данных, которые преобразуют сырой контент в структурированные, дедуплицированные и обогащённые метаданными датасеты, готовые к дальнейшей обработке.
- Разрабатывать алгоритмы планирования и приоритизации краулинга, повышающие актуальность, покрытие и разнообразие данных в условиях ограничений по вычислительным ресурсам и пропускной способности.
- Создавать и поддерживать системы поиска и индексирования, которые позволяют исследователям и инженерам находить, запрашивать и отбирать данные из полного корпуса.
- Вместе с командой обработки данных определять схемы, сигналы качества и интерфейсы передачи данных между этапами сбора и подготовки.
- Обеспечивать наблюдаемость систем: метрики, логирование, алертинг и инструменты для быстрого реагирования на инциденты.
- Оценивать и подключать внешние источники данных, согласовывая технические требования к форматам поставки и API.
- Выступать техническим ориентиром для команды: помогать коллегам в выборе решений, проводить архитектурные обсуждения, участвовать в code review и повышать инженерную зрелость направления.
- Менторить инженеров команды и распространять лучшие практики проектирования, эксплуатации и развития систем сбора данных.
Мы ожидаем
- Высшее образование в области computer science, математики или смежной области.
- Не менее 6 лет опыта в разработке ПО, из которых как минимум 3 года — в создании масштабных распределённых систем.
- Глубокую экспертизу в веб-краулинге, скрейпинге или информационном поиске в масштабе миллиардов документов.
- Уверенное владение Python, Go или C++, а также опыт работы с Kubernetes или аналогичными системами оркестрации контейнеров.
- Практический опыт работы с распределёнными системами хранения данных и key-value- или документоориентированными базами данных.
- Хорошее понимание сетевых протоколов и веб-стандартов, значимых для краулинга.
- Опыт ведения сложных технических инициатив — от архитектурного замысла до production-эксплуатации.
- Способность быть техническим лидером для команды: аргументированно принимать решения, синхронизировать инженеров вокруг архитектурного подхода и развивать экспертизу коллег.
- Сильные письменные и устные коммуникативные навыки; умение влиять на технические решения в кросс-функциональном взаимодействии.
Будет плюсом
- Опыт работы с YTSaurus.
- Опыт эксплуатации веб-краулеров петабайтного масштаба.
- Бэкграунд в NLP, извлечении текста или определении языка для многоязычных корпусов.
- Опыт менторинга инженеров и неформального лидерства в сильной технической команде.
Что предлагаем
- Кластеры YTSaurus с большим количеством ресурсов: десятки петабайт + десятки тысяч ядер.
- Сильная команда выпускников МФТИ, ВШЭ, МГУ, много людей с опытом работы в профильном БигТехе.
- комфортный современный офис рядом с м. Кутузовская.
- гибридный формат работы (2 дня в офисе, 3 дня на удалёнке).
- ежегодный пересмотр зарплаты, годовая премия.
- корпоративный спортзал и зоны отдыха.
- система обучения для профессионального и карьерного развития.
- расширенный полис ДМС с первого дня работы и страхование для семьи.
- льготная программа ипотеки для сотрудников.
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнёров.
- вознаграждение за рекомендацию друзей в команду Сбера.

О компании Сбер
Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.