В отделе качества рекламы разрабатываются модели для решения множества задач машинного обучения, и этим моделям нужны регулярные данные из разных систем.
Данных очень много — нужно обрабатывать несколько петабайт в день, при этом необходимо постоянно добавлять новые источники, разрезы и датасеты с минимальными затратами железа и времени разработчиков.
Мы хотим построить масштабируемый DWH для ML, который будет справляться с большой нагрузкой и, кроме того, позволит наладить процессы отслеживания потребления ресурсов и планирования заказов, сделать сквозной Data Lineage от источников до моделей с возможностью поиска и удаления неиспользуемых таблиц, построить систему проверки качества данных.
Будет плюсом:
Яндекс — одна из крупнейших ИТ-компаний в России. Мы развиваем самую популярную в стране поисковую систему и создаём сервисы, которые помогают людям в повседневных делах. С их помощью можно искать информацию в интернете, слушать музыку, выбирать товары и места, заказывать еду, перемещаться по городу и делать многое другое. Яндекс предлагает также продукты для бизнеса.