В отделе качества рекламы разрабатываются модели для решения множества задач машинного обучения, и этим моделям нужны регулярные данные из разных систем.
Данных очень много — нужно обрабатывать несколько петабайт в день, при этом необходимо постоянно добавлять новые источники, разрезы и датасеты с минимальными затратами железа и времени разработчиков.
Мы хотим построить масштабируемый DWH для ML, который будет справляться с большой нагрузкой и, кроме того, позволит наладить процессы отслеживания потребления ресурсов и планирования заказов, сделать сквозной Data Lineage от источников до моделей с возможностью поиска и удаления неиспользуемых таблиц, построить систему проверки качества данных.
Будет плюсом:
Яндекс — одна из крупнейших IT-компаний в России. Компания развивает самую популярную в стране поисковую систему и создаёт сервисы, которые делают жизнь людей более комфортной и яркой. Сервисы Яндекс помогают в повседневных делах в офлайне и онлайне. С их помощью можно искать информацию в интернете, слушать музыку, выбирать товары и места, заказывать еду, перемещаться по городу и делать многое другое. Яндекс предлагает также продукты для рекламодателей и владельцев бизнеса.