Поисковая база Яндекса должна полно и быстро доставлять на страницы результатов поиска содержимое сайтов и факторы их ранжирования. Чтобы этого добиться, мы:
Мы работаем с десятками петабайт данных, сотнями миллиардов документов (страниц сайтов) и десятками тысяч обновлений в секунду. У нас несколько контуров доставки документов: от быстрого, но небольшого, построенного на потоковой обработке в real-time, до медленного, но огромного, завязанного на batch-обработке в парадигме MapReduce.
А ещё мы поддерживаем и развиваем сервисы обработки пользовательских данных, определения зеркал сайтов, построения базы фавиконок и другие смежные сервисы.
Прямо сейчас мы ускоряем различные этапы построения поисковой базы, целиком переводим медленный контур на потоковую обработку, расширяем функциональность и добавляем новые факторы.
Ищем разработчика на C++, который нам в этом поможет. Например, вам предстоит придумать, как эффективно и масштабируемо выбирать в потоке топ документов по заданному набору факторов, при этом минимизировать переотправку документов на вход.
Будет плюсом, если вы:
Яндекс — одна из крупнейших IT-компаний в России. Компания развивает самую популярную в стране поисковую систему и создаёт сервисы, которые делают жизнь людей более комфортной и яркой. Сервисы Яндекс помогают в повседневных делах в офлайне и онлайне. С их помощью можно искать информацию в интернете, слушать музыку, выбирать товары и места, заказывать еду, перемещаться по городу и делать многое другое. Яндекс предлагает также продукты для рекламодателей и владельцев бизнеса.