Поисковая база Яндекса должна полно и быстро доставлять на страницы результатов поиска содержимое сайтов и факторы их ранжирования. Чтобы этого добиться, мы:
Мы работаем с десятками петабайт данных, сотнями миллиардов документов (страниц сайтов) и десятками тысяч обновлений в секунду. У нас несколько контуров доставки документов: от быстрого, но небольшого, построенного на потоковой обработке в real-time, до медленного, но огромного, завязанного на batch-обработке в парадигме MapReduce.
А ещё мы поддерживаем и развиваем сервисы обработки пользовательских данных, определения зеркал сайтов, построения базы фавиконок и другие смежные сервисы.
Прямо сейчас мы ускоряем различные этапы построения поисковой базы, целиком переводим медленный контур на потоковую обработку, расширяем функциональность и добавляем новые факторы.
Ищем разработчика на C++, который нам в этом поможет. Например, вам предстоит придумать, как эффективно и масштабируемо выбирать в потоке топ документов по заданному набору факторов, при этом минимизировать переотправку документов на вход.
Будет плюсом, если вы:
Яндекс — одна из крупнейших ИТ-компаний в России. Мы развиваем самую популярную в стране поисковую систему и создаём сервисы, которые помогают людям в повседневных делах. С их помощью можно искать информацию в интернете, слушать музыку, выбирать товары и места, заказывать еду, перемещаться по городу и делать многое другое. Яндекс предлагает также продукты для бизнеса.