Вакансия в архиве
Компания больше не ищет сотрудника. Посмотрите похожие предложения

Разработчик в команду алертинга

в Yandex Infrastructure

250 000 —‍ 450 000 ₽/‍мес на руки

📍 Москва (м. Парк культуры)

Санкт-Петербург (м. Площадь Ленина)

Екатеринбург

Новосибирск

Казань

Нижний Новгород

Гибрид

Специализация

Java

Уровень

Senior

Требуемый опыт

5+ лет

Алертинг — сервис, рассчитывающий пользовательские PromQL-подобные выражения (алерты) поверх метрик и нотифицирующий пользователей через различные средства уведомлений. Алертинг входит в состав платформы Observability Яндекса, которая позволяет легко и быстро получить однозначный ответ о состоянии систем в любой момент времени. Практически все команды Яндекса пользуются возможностями платформы для мониторинга состояния своих сервисов — как внешних, так и внутренних. Кроме этого, сервис доступен пользователям Yandex Cloud.

Алертинг в числах:

16М алертов, рассчитываемых каждую минуту.
2М+ RPS на чтение временных рядов и обслуживание пользовательских запросов.
258 серверов.
4К CPU.
17TB RAM.

Вызовы, которые перед нами стоят

Упрощение для пользователя заведения типовых алертов. Не каждый может с первого раза написать алерт, например на падение трафика, при этом чтобы он не флапал. Ещё сложнее писать алерты на отклонение, тренды и т. д.

Рекомендательная система алертов и, как следствие, снижение количества инцидентов у пользователей. При использовании библиотеки или менедж-сервисов пользователи часто не задумываются, как правильно их мониторить и что предпринимать. А если за чем-то не следить, то оно рано или поздно сломается и уронит пользователю прод.

Обеспечение масштабирования системы. Ежегодный рост составляет свыше 50%, поэтому решения, принятые ранее, могут переставать работать. К примеру, перед нами стоят такие задачи: как балансировать выполнения алертов по кластеру, что делать, если пользовательский проект перестал помещаться в один хост.

Обеспечение отказоустойчивости системы. Если не работает алертинг, наши пользователи не знают о состоянии своего продакшна. Если пользователь не знает о проблемах в его системе, это может привести к крупным инцидентам, а также к финансовым и репутационным потерям. Нам предстоит решить, как при отказе 1/3 кластера, продолжить считать алерты, не создав DDOS на лежащие ниже системы.

Какие задачи вас ждут

Автоматическое партиционирование выполнения алертов и балансировка по кластеру

От года к году нагрузка растёт более чем на 50%, технические решения, принятые ранее, перестают работать. Например, случайное размазывание алертов по кластеру для ровной утилизации на большом объёме алертов начинает плохо работать, так как не все алерты одинаковые. Алерт-убийца может положить весь кластер, невозможно эффективно реализовать кеширование. Вам предстоит решить, как наиболее эффективно партиционировать выполнение алертов и размазать их по кластеру для утилизации.

Проработка технических и продуктовых решений для пользовательских сценариев

Наши пользователи — это такие же разработчики, как и мы сами. Проблемы, с которыми сталкиваются пользователи, актуальны и для нас. Поэтому разработчики всегда принимают участие в обсуждении и проработке не только технических решений, но и продуктовых. Например: как должны выглядеть SLO-алерты, как сделать так, чтобы пользователю было понятно, что такое good events и bad events, и как в этой парадигме создать SLO-алерт на тайминги.

Упрощение пользовательских сценариев по работе с алертами

Первое, с чем сталкивается пользователь, — как завести алерт под конкретный сценарий. Тут мы хотим предоставлять какие-то типовые алерты: на отклонение, тренд, резкие взлёты и падения, SLO. Затем пользователю предстоит понять, что алерт отловил проблему. Алерты нужно уметь просчитывать в прошлом, чтобы создать и не сильно чувствительный алерт, чтобы он ловил реальные проблемы. После того как алерт создан, важно понять причину его срабатывания: это одна из реплик не ответила, это лаг поставки данных или же реальная проблема.

Реализация отказоустойчивости алертинга

Если не работает алертинг, пользователи остаются без приборов по своему продакшну и могут пропустить проблему, которая приведёт к серьёзному инциденту. Поэтому необходимо, чтобы алерт успевал просчитывать все алерты и был отказоустойчив. Вам предстоит реализовать hot-standby-режим работы в балансировщике, при этом так, чтобы во время отказа стойки или модуля в дата-центре мы не потеряли обе реплики. Помимо этого, нужна изоляция проектов друг от друга, чтобы проблемы одного проекта не влияли на другие проекты.

Мы ждем, что вы

Умеете писать и понимаете многопоточный код: весь алертинг работает асинхронно с использованием акторной модели.
Понимаете ключевые аспекты построения отказоустойчивых распределённых систем.

Что мы предлагаем

Заботу о здоровье

Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят: стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев.

А также

Психотерапия в офисе или онлайн-сервисах.
Лазерная коррекция зрения через год работы.
Ведение беременности и родов — через два года.
Страховка для родственников по системе 80/20.
Мы оплачиваем 80% стоимости ДМС для детей и супругов, вы — остальные 20%.

Рост и развитие

В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей.

А также

Оплата участия в профильных конференциях.
Скидка 50% на изучение иностранных языков.
Кроме того, в Яндексе есть внутренние проекты, где наши сотрудники делятся экспертизой, обсуждают сложные темы и разбирают кейсы своих проектов.

Спорт

Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей. Можете заниматься самостоятельно, а можете с корпоративным тренером.

А также

Бесплатные онлайн-тренировки с FITMOST.
Скидки в фитнес-клубах, бассейнах, студиях йоги, скалодромах и других местах.

Спортивный клуб Яндекса

В Яндексе есть спортивный клуб и много спортивных команд. У них есть свои лидеры, чаты, программы тренировок. А ещё они регулярно участвуют в забегах, триатлонах, «Гонке героев», футбольных и других соревнованиях. Вы сможете присоединиться к существующим командам или собрать свою.

И еще

Гибкий график. У нас нет фиксированного времени начала и конца рабочего дня — работайте так, как удобно вам и вашей команде.
Всё для детей. Страхование, детские дни в офисе, подарки на рождение детей и чекапы при планировании беременности.
Жилищные займы. Льготная ставка на покупку жилья и улучшение жилищных условий — в зависимости от стажа, позиции и результатов ревью. Действует для сотрудников, работающих в российских офисах Яндекса.

О компании Yandex Infrastructure

Сфера

Продуктовая компания

Команда Yandex Infrastructure создаёт и предоставляет внутреннюю инфраструктуру Яндекса — фундамент из продуктов и технологий, на базе которого тысячи инженеров разрабатывают, деплоят и эксплуатируют основные сервисы Яндекса: Поиск, Такси, Маркет, Алису, Кинопоиск и многие другие.