Почему стоит принять участие?
- Проект, который находится на острие инноваций.
- Условия для реализации наиболее амбициозных идей.
- Команда отзывчивых и опытных коллег, с глубокой экспертизой в области, у которых можно научиться новому.
- Возможность увидеть результаты своей работы в кратчайшие сроки.
- Своя digital-платформа для развития ключевых IT-компетенций.
Какие команды Сбера участвуют?
Gigachat Data готовит данные для всех этапов обучения GigaChat: файнтюнинг (SFT), RLHF, доменное обучение (например, математика, финансы, медицина), продуктовые кейсы. Кроме текстовых моделей мы формируем обучающие и тестовые сеты мультимодальных моделей и эмбедеров.
Speech Data готовит данные для всех голосовых задач в SaluteSpeech. Вместе с ML-инженерами мы разрабатываем модели распознавания речи, диаризации, споттера, распознавания эмоций, а еще учим GigaChat понимать звук. У нас современный стек, мощные сервера и петабайты аудио.
Какие преимущества работы в Сбере?
- Внутренние и внешние конференции и проф. сообщества Сбера.
- Расширенная программа ДМС (возможность подключения родственников), страхование жизни, специальные условия по кредитам/ипотеке, скидки от компаний-партнёров.
- Знаменитый офис на Кутузовском проспекте с парковкой, спортзалом, массажными креслами и возможностью выбора формата работы (офис или гибрид).
- Атмосфера стартапа и надёжность гиганта.
Какие задачи стоят перед командами?
- Research: исследование и реализация перспективных подходов обучения, синтеза и фильтрации данных.
- Конструирование метрик и бенчмарков LLM.
- Разработка пайплайнов для решения продуктовых кейсов с помощью больших языковых моделей.
- Code: реализация prod-ready кода по работе с LLM, БД, API.
- Markup: формирование и контроль пайплайнов разметки данных.
- Pretrain: повышение качества pretrain набора данных.
- RL: эксперименты с RL, Reward и DPO подходами.
Какие требования к кандидату?
- Опыт в улучшении и аналитике ML-моделей — от трех лет.
Будет плюсом:
- Опыт синтеза, обогащения и фильтрации обучающих данных.
- Опыт формирования и работы с продуктовыми и ML метриками, тестовыми сетами и бенчмарками в разных доменах.
- Опыт построения пайплайнов разметки данных.
- Использование, обучение и файн-тюн open-source LLM и других нейросетей.
Как пройдёт мероприятие?
Все этапы подбора проходят за 1 день, вас ждёт:
- Технические интервью с экспертами команды.
- Финальная встреча с представителями команды и обратная связь по итогам технических интервью.
- Предложение о работе при взаимной заинтересованности в тот же день.
25 мая:
- 11:00-11:30 — знакомство с командами.
- 12:00-13:00 — секция кода (1 поток).
- 13:00-13:30 — фидбек по секции кода.
- 13:30-14:00 — секция кода (2 поток).
- 13:30-14:00 — секция аналитика (1 поток).
- 14:00-15:00 — фидбек по секциям.
- 15:00-16:00 — секция аналитика (2 поток).
- 16:00-16:30 — фидбек по секциям.
- 16:30-18:30 — финалы.
- 18:30-19:00 — выставление оффера.