Identity & Access Management, или IAM, — это набор сервисов, отвечающих за то, чтобы операции над ресурсами в облаке совершали только пользователи, обладающие нужными правами. Любой запрос к облаку сразу же трансформируется в серию запросов к сервису IAM, чтобы распознать пользователя и проверить его полномочия. IAM принимает сотни тысяч запросов в секунду и развёрнут в нескольких окружениях.
Мы ищем опытного инженера SRE, который будет развивать и поддерживать инфраструктуру IAM. Вам предстоит унифицировать систему развёртывания сервиса на несколько инсталляций и автоматизировать разливку на стыке IAM и других IaaS-сервисов. Количество инсталляций растёт, и поэтому требуется обеспечить передачу дежурств по стендам в выделенные команды SRE, а для этого надо вложиться в документацию Playbook и автоматизацию релизных процессов. Необходимо обеспечивать бесперебойный релизный цикл, разрабатывать и внедрять механизмы, которые позволят прозрачно отслеживать статус релизов и связь тикетов на разработку с ними. «В какие окружения докатилась фича GreatFeature?» — на этот вопрос мы хотим отвечать полуавтоматически.
В сервисе IAM десятки различных алертов, отслеживающих состояние системы. Оповещения об изменении критичных параметров системы превращаются в звонки дежурным IAM. Мы не любим просыпаться по ночам, поэтому вам предстоит совместно с командой вырабатывать практики по устранению false-positive-срабатываний и повышать отказоустойчивость сервиса.
Наши сервисы написаны преимущественно на Java, и мы ожидаем, что у вас есть опыт эксплуатации JVM-based-сервисов.
Yandex Cloud — публичная облачная платформа, которая предоставляет корпорациям, среднему бизнесу и частным разработчикам масштабируемую инфраструктуру, сервисы хранения данных, инструменты машинного обучения и средства разработки. С 2018 года платформа выросла вдвое не только по суммарному доходу, но и по клиентской базе: ежедневно сервисы используют более 10 тысяч компаний.