Мы ищем инженера, который поможет нам вывести надежность и наблюдаемость систем на новый уровень — не только на уровне платформы, но и во взаимодействии с продуктовыми командами.
Ты будешь одним из двух SRE в платформенной команде.
Задач хватит: от построения инструментов для оценки надежности сервисов до настройки и развития системы мониторинга под десятки команд с разной степенью зрелости.
Технологии, с которыми ты точно столкнёшься
- Prometheus, VictoriaMetrics, Grafana, Grafana Tempo.
- Sentry, OpenSearch.
- Kubernetes, Terraform + Terragrunt, ArgoCD.
- Go, Bash.
И немного про нас: у нас нет дежурств, нет микроменеджмента, но есть много возможностей сделать среду лучше — и для себя, и для команд. Мы не ищем «фиксеров алертов», нам важны люди, способные влиять и развивать практики SRE.
Временная зона команды
- GMT+3 (Москва) +/- 4 часа.
Чем предстоит заниматься
- Помогать продуктовым командам делать их сервисы наблюдаемыми: метрики, дашборды, алерты, трейсинг.
- Развивать мониторинг всей платформы — мы используем Prometheus, VictoriaMetrics, Grafana, Tempo, Sentry и OpenSearch.
- Создавать автоматические проверки для оценки качества и готовности сервисов — например, «юнит-тесты надежности»: насколько конфигурация деплоя соответствует Best Practices.
- Автоматизировать и систематизировать всё, что можно: у нас уже есть GitOps, ArgoCD, Terraform, Terragrunt.
- Помогать выстраивать SLI/SLO, проводить аудит текущих решений, участвовать в проектировании новых.
Наши пожелания к кандидату
- Опыт работы SRE-инженером или похожей ролью на уровне Senior или Lead.
- Умение разбираться в чужих сервисах, не боясь пойти в чужой код или инфраструктуру.
- Практический опыт с Kubernetes, CI/CD, Observability-инструментами.
- Автономность. У нас высокая самостоятельность — нужно уметь брать ответственность, задавать направление и доводить до результата.
- Умение разговаривать с людьми. Много взаимодействия с командами, важно объяснять, а не только настраивать.