📍 Москва (м. Кутузовская)Офис или гибрид
Специализация
Data Science / Machine Learning
Английский
B1 — IntermediateB1 — Intermediate
Команда продукта «Интеллектуальная система управления руководителя» создает продукт, который включает AI-сервисы для повышения эффективности работы руководителя:
- Голосовой Виртуальный Ассистент на базе «Салют» (навыки работы с текстом, аудио, поиск информации по корпоративной базе знаний).
- Knowledge Assistant с использованием LLM для поиска и работы с информацией в корпоративной базе знаний.
- Сервис Speech2Text + LLM для автоматического протоколирования совещаний.
- LLM для саммаризации протоколов совещаний, почты, заметок и пр.
- LLM и др. генеративные модели для генерации текстов (писем, заметок), презентаций, документов.
- OCR и LLM для распознавания и работы с документами (саммаризация, комментарии к материалам).
Взаимодействие ведется с командами внутри Блока, подразделениями Блока Технологии (SberDevices), Департаментом ИИ (AI Lab, Sber AI), Управлением валидации.
Технологии/инструменты
PythonSQLNumPyMatplotlibSeabornScikit-learnPyTorchXGBoostCatBoostTensorFlowTransformersDockerOpenShiftLinuxBitbucketNexusJenkinsFFmpegTorchaudiopandas
Задачи
- Разработка дизайна ML-системы из множества ML-моделей в рамках единого продукта («Интеллектуальная система управления руководителя»).
- Консультирование / участие в автоматизации источников данных для ML-моделей совместно с ML Engineer/Data Engineer.
- Fullstack-разработка ML-моделей, доведение моделей из стадии MVP до целевого решения (все этапы ЖЦ моделей по CRISP-DM от Data Understanding до Deployment с использованием тех. стека банка).
- Работа с аудиосигналом: фильтрация, очистка от шума, алгоритмы сжатия.
- Speech2Text: разработка, настройка и дообучение моделей распознавания речи (например, Wav2Vec, Whisper).
- Решение задач Speaker Diarization и Speaker Recognition: эмбеддинги спикеров, разделение спикеров (сегментация, кластеризация), идентификации спикеров.
- VAD: решение задачи детектирование активности голоса.
- Audio Source Separation: решение задач по разделению источников звука.
Сопутствующие обязательные стримы
- Тесное взаимодействие с бизнес-заказчиком для выявления требований к AI-компоненте продукта и самостоятельная постановка задачи на основании извлечения vision.
- Участие в разработке архитектуры решения в части AI-компоненты (технологический стек для развертывания моделей в средах исполнения).
- Участие в стримах по валидации разработанных моделей и постановке их на автомониторинг.
Ожидания
- Образование в техническом ВУЗе в сфере компьютерных наук, прикладной математики или статистики. Наиболее приоритетны: ВШЭ, МФТИ, МГУ, МИФИ.
- Опыт в разработке Speech to Text моделей и сервисов.
- Опыт в обработке аудиосигналов.
- Опыт в работе с моделями Speaker Diarization и Speaker Recognition.
- Опыт в работе с моделями VAD и Audio Source Separation.
- Понимание жизненного цикла моделей (CRISP-DM).
- Умение переводить бизнес-постановку задачи в ML-постановку, грамотная интерпретация полученных результатов.
- Высокий уровень владения ядром Python и SQL.
- Свободное владение базовыми библиотеками на Python, в том числе: Pandas, NumPy, Matplotlib, Seaborn.
- Знание фреймворков, библиотек, алгоритмов машинного обучения: Scikit-learn, PyTorch, XGBoost, CatBoost, TensorFlow, Transformers.
- Знание библиотек и инструментов для работы с аудио: FFmpeg, Torchaudio.
- Базовые знания NLP.
- Знание архитектур нейронных сетей 1D CNN, трансформеры.
- Контейнеризация: Docker, OpenShift.
- Linux.
- Инструменты DevOps (MLOps): Git, Jira, Bitbucket, Nexus, Jenkins.
- Индустриальный опыт разработки, обучения, тестирования, выведения моделей в эксплуатацию и мониторинга качества (не менее 3-х лет).
- Технический английский — статьи, документация.
Преимущества:
- Pet-projects на GitHub.
- Владение Confluence, Jira.
- Медали на Kaggle.
- Готовность брать на себя коммуникацию с бизнес-заказчиком.
- Опыт DS-менторства.
Условия
- Ипотека выгоднее на 4% для каждого сотрудника и льготные условия кредитования.
- Бесплатная подписка СберПрайм+.
- Скидки на продукты компаний-партнеров.
- ДМС с первого дня и льготное страхование для близких.
- Корпоративная пенсионная программа.
- Обучение за счет Компании: онлайн-курсы в Виртуальной школе Сбера и неограниченный доступ к библиотеке, обучение в Корпоративном университете, Тренинги, митапы и возможность получить новую квалификацию.
- Крупнейшее DS&AI community — более 600 DS банка, включая: регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы.