Мы команда админов в Туту. Нас в команде 10 человек, и мы поддерживаем значительную часть инфраструктуры компании. Всего в компании более 1000 сотрудников, из них около 300 в ИТ. Мы работаем с бодрящим коктейлем из технологий: есть как проверенные временем, так и свежие, не сильно распространённые в стране. Мы понимаем, что погружение в нашу специфику и обучение редким технологиям может занять время, поэтому при выборе нового сотрудника, будем ориентироваться не на знание всего нашего стека, а на ответственное отношение к системам, способность быстро разбираться с новым и умение договариваться в команде и с разработчиками. Будет немало рутины, но из рутины вырастают задачи на автоматизацию или изменение архитектуры для повышения стабильности систем — а такие задачи очень сильно прокачивают в профессиональном плане.
MariaDB — в HA-варианте с использованием ProxySQL и GitHub Orchestrator, немного подробностей есть на Хабре. Всего около 50 продакшен-инсталляций с разными топологиями.
MongoDB — ReplicaSet-вариант с небольшой обвязкой для HA — порядка 30 разных репликасетов.
Redis — отказоустойчивая конфигурация на базе Sentinel. Около 30 кластеров, из них несколько — прямо очень высоконагруженных.
PostgreSQL — в основном HA-инсталляции на основе Patroni/PgBouncer — пока около 15 на каждой из сред, планируем наращивать использование.
ClickHouse — только OLTP-нагрузка, без OLAP (это у другой команды) несколько инсталляций.
Инструментарий (если уже сталкивались — будет плюсом).
Lvs — ключевой элемент нашей HA.
Ansible, Terraform — инструменты внутренней автоматизации.
Стек мониторинга: Prometheus, PMM, Grafana.
Стек сбора логов: Fuentbit — Kafka — Vector — Elastic.
Python — достаточно много своей скриптовой обвязки.
Лёха. Ведущий DBA. Сделал отказоустойчивым весь наш парк MariaDB, с использованием ProxySQL, GitHub Orchestrator и самописного «клея» на Python. Придумал архитектуру для HA-инсталляций Redis и PostgreSQL. У Лёхи 15-летний опыт с MySQL, и он готов им делиться.
Никита. В компании около полутора лет, специализируется в основном на PostgreSQL, успел обновить весь парк на Alma 9, параллельно существенно упростил и упорядочил автоматику и сопроводил процесс импортозамещения в контакт-центре на стороне баз данных. Основательно познакомился с особенностями работы ClickHouse, особенно в условиях неполного набора нод в кластерах, и смог прорваться через все его заморочки.
Влад. В компании полгода, пока специализируется на небольших задачах в основном по PostgreSQL и MySQL, принял активное участие в переезде MySQL-виртуалок на Alma 9.
С этими ребятами нужно будет взаимодействовать больше всего. Кроме них в команде:
Яша. Придумал и внедрил центральный элемент нашего видения HA — балансировщики на базе lvs и эникаст-адресов. Развернул систему централизованного мониторинга на базе Prometheus (вместо Graphite) и пайплайн сбора логов Fluentbit — Kafka — Vector вместо Rsyslog — Logstash, сделал distributed tracing на базе OpenTelemetry-стека.
Антон. Внедрил в компании Kafka, главный эксперт по этому сервису. Отвечает за инструменты управления облаками — главный по Terraform (мы живём в нескольких ДЦ — и с тех пор количество ДЦ подросло) — и за слой фронтпрокси. Внедрил использование Vault в админской автоматике.
Лёня. Специализируется преимущественно на инструментах мониторинга и логирования. Внедрил Pyroscope в Openshift для удобной профилировки продуктовых сервисов на Go, сделал пайплайн доставки логов аудита (Vector + ClickHouse), развернул awx. Кроме того придумал, как сделать кластеры MinIO одновременно и HA, и удобно сопровождаемыми.
Виталик. Отвечает за envoy (фронтпрокси) и внутренние инструменты автоматизации вместе с Антоном. Запустил многопользовательский режим работы для нашего Terraform.
Дима. Помогает Антону с Kafka, внедрил HA-конфигурацию RabbitMQ, дорабатывает систему обеспечения корректного поведения сервисов при отказе дисковой подсистемы.
Саша. Разработчик, раньше занималась эксплуатацией монолитного приложения и кодила на PHP, а сейчас развивает инструменты внутренней автоматизации на Python. Написала и внедрила систему управления доступами к MySQL / MongoDB / PostgreSQL на основе данных из Active Directory. В процессе — разработка системы корректного выключения ЦОДа по кнопке.
Вадим. Бывший разработчик, а сейчас главный зануда команды. Помимо руководства, помогаю ребятам с кодом, архитектурой и диагностикой сложных сбоев.
Откликнулось? Откликайтесь!
Туту — сервис путешествий. У нас есть расписание рейсов, билеты на поезда, самолёты, автобусы, электрички и аэроэкспрессы. А ещё много отелей, туров и экскурсий. В 2003 году мы запустили первое в России регулярно обновляемое расписание электричек и с тех пор меняем опыт миллионов путешественников к лучшему с помощью технологий.