Мы команда инженеров данных, и продукт нашей команды — Data WareHouse (хранилище данных), которое мы строим для нужд бизнес-подразделений. Нашими пользователями являются как руководители Маркета, которым нужна отчётность для принятия решений, так и эксперты в области глубокого анализа данных. Можно утверждать, что все бизнес-подразделения Маркета являются потребителями поставляемых нами данных.
Технологически ядро хранилища построено на системах хранения данных Yandex Tables (Hadoop собственной разработки), Greenplum и СlickHouse. Разработка процессов ETL идёт на собственном фреймворке, который создан внутри Яндекса. Для организации модели хранения данных на разных уровнях применяются подходы от Data Lake до Data Vault.
Наше хранилище данных сейчас одно из самых крупных в России — порядка 10 петабайт — и с учётом темпов роста бизнеса оно будет самым большим. Стоит отметить, что к нему предъявляются высокие требования по надёжности, что ставит перед нашей командой далеко не тривиальные задачи, для которых нет готовых решений.
Будет плюсом:
Яндекс Маркет — технологичный маркетплейс, где можно купить то, что хочется легко и с приятными плюшками. Мы входим в топ крупнейших маркетплейсов и являемся одним из важнейших направлений развития Яндекса на ближайшие несколько лет. У нас мощная команда, амбициозные цели, много категорий, проектов, и останавливаться не собираемся.