Привет! Это команда ML-Инфраструктуры Ozon Tech.
Мы развиваем платформенные сервисы, которые упрощают и стандартизируют процесс создания и эксплуатации ML-решений в Ozon. Наша цель — дать дата-сайентистам и аналитикам удобные и мощные инструменты, чтобы быстрее и надёжнее запускать эксперименты, разворачивать модели и управлять вычислительными ресурсами. Мы создаём инфраструктуру, которая объединяет команды в единую ML-экосистему.
В команде работают инженеры с сильной экспертизой. Мы тесно сотрудничаем с дата-сайентистами, аналитиками, SRE и другими платформенными командами.
Кого мы ищем
Ищем backend-инженера (Java/Kotlin), который поможет нам развивать ML-инфраструктуру и строить надёжные, масштабируемые сервисы для запуска, инференса и сопровождения моделей.
Вы будете
- Развивать ML Job Scheduler — систему управления задачами машинного обучения и вычислительными ресурсами в Kubernetes.
- Разрабатывать Model as a Service — сервис для инференса моделей, с фокусом на эффективность использования CPU/GPU.
- Работать над DataFlow — системой доставки и подготовки данных для обучения моделей.
- Проектировать и развивать новые сервисы и компоненты ML-платформы.
- Плотно взаимодействовать с дата-сайентистами и аналитиками для уточнения требований и совместного проектирования решений.
Примеры задач:
- Настроить шедулер так, чтобы эффективно распределять задачи по GPU-ноде, минимизируя idle-time.
- Оптимизировать latency и throughput сервиса инференса.
- Обеспечить стабильную доставку большого объёма обучающих данных из S3/HDFS в вычислительный кластер.
- Перепроектировать архитектуру одного из сервисов, чтобы упростить масштабирование и добавление фич.
Нам важно
- Опыт коммерческой разработки на Java или Kotlin от 3 лет.
- Опыт проектирования и реализации распределённых систем.
- Умение декомпозировать задачи, принимать архитектурные решения и обосновывать их.
- Понимание принципов масштабируемости и отказоустойчивости сервисов.
- Навыки работы с CI/CD и Kubernetes.
Будет плюсом:
- Опыт разработки MLOps-инфраструктуры.
- Знание Kubernetes CSI, Helm.
- Понимание процессов ML и Data Science.
Работа в Ozon Tech — это
- Решать уникальные highload-задачи и сокращать time to market.
- Создавать решения, которых ещё нет на рынке.
- Влиять на продукты и процессы.
- Управлять своим карьерным треком и развиваться вместе с компанией.
- Быть частью сильного комьюнити, которым мы гордимся.