Вакансия в архиве
Компания больше не ищет сотрудника. Посмотрите похожие предложения

Все вакансииData Scientist & Machine LearningRemoteSenior

Руководитель команды данных для Post-Training / Online RL в команду GigaChat

в Сбер

650 000 —‍ 850 000 ₽/‍мес на руки

📍 Россия

Удалённо

Специализация

Data Scientist & Machine Learning

Уровень

Senior

Зарплата: 650 000–850 000 ₽ + годовой бонус.

Мы развиваем GigaChat и ищем руководителя новой команды данных, которая будет отвечать за подготовку датасетов для post-training больших языковых моделей.

Это роль для человека, который сможет с нуля собрать и развить команду, выстроить процессы и сделать так, чтобы ML-инженеры и аналитики модели быстро получали качественные данные под свои задачи.

Основной фокус — датасеты для online RL, cold start и обучения reward-моделей.

Нам нужен сильный руководитель, который умеет строить data-функцию как полноценное направление: понимать потребности внутренних заказчиков, превращать их в понятные процессы и обеспечивать стабильное производство качественных данных в нужные сроки.

Чем предстоит заниматься

С нуля построить команду данных для post-training

Сформировать новую команду, которая будет отвечать за подготовку данных для online RL, cold start и других задач post-training.
Нанять и развить ключевых людей в команду, определить роли, зоны ответственности и принципы работы.
Выстроить понятные процессы взаимодействия с ML-командами, аналитиками модели и другими внутренними заказчиками.
Сделать так, чтобы команда не просто выполняла отдельные запросы, а стала надёжной функцией, на которую можно опираться в регулярном цикле обучения моделей.

Организовать производство датасетов под задачи ML-команд

Принимать запросы от ML-инженеров и аналитиков модели, разбирать их и превращать в понятные требования к данным.
Организовывать подготовку датасетов для online RL, cold start, reward modeling и других направлений post-training.
Обеспечивать хорошее покрытие данных по типам сценариев, уровням сложности, форматам задач и типовым ошибкам модели.
Следить за тем, чтобы данные действительно соответствовали задаче заказчика и помогали улучшать качество модели, а не просто формально закрывали запрос.

Выстроить систему качества данных

Ввести стандарты качества для датасетов: требования к разметке, структуре данных, полноте, консистентности и документации.
Организовать контроль качества данных: проверку на шум, дубли, утечки, перекосы по сценариям и другие типовые проблемы.
Сделать данные воспроизводимыми и прозрачными: с понятными версиями, описанием состава, источников и ограничений.
Выстроить процесс, при котором качество данных не зависит от ручного героизма отдельных людей, а обеспечивается системно.

Построить устойчивый процесс работы под внутренний заказ

Сделать процесс работы с внутренними заказчиками быстрым и предсказуемым: от поступления запроса до передачи готового датасета.
Помогать ML-командам уточнять требования к данным, если на старте они сформулированы слишком широко или расплывчато.
Находить баланс между скоростью, качеством и стоимостью подготовки данных.
Выстроить приоритизацию, чтобы команда эффективно работала сразу с несколькими направлениями и не превращалась в узкое место для всей организации.

Развивать инфраструктуру и инструменты для работы с данными

Определять, какие инструменты и пайплайны нужны команде для подготовки, проверки и выпуска датасетов.
Помогать выстраивать процессы хранения, версионирования, переиспользования и сопровождения данных.
Делать так, чтобы успешные подходы к подготовке данных можно было масштабировать и применять повторно в разных задачах.

Управлять командой и развивать направление

Руководить командой дата-специалистов и задавать высокую планку по качеству, скорости и надёжности работы.
Развивать внутри команды сильную экспертизу по сбору, подготовке и контролю качества данных для LLM.
Формировать культуру, в которой команда глубоко понимает задачу внутренних заказчиков и отвечает за результат, а не просто исполняет заявки.

Для нас важно

Опыт руководства командой данных, разметки, data production или смежным направлением.
Опыт построения процессов с нуля: найм, распределение ролей, организация потока задач, контроль качества и сроков.
Умение работать с внутренними заказчиками и переводить их потребности в понятные и исполнимые требования к данным.
Понимание того, как данные влияют на качество ML-моделей, особенно в задачах post-training.
Опыт построения устойчивых процессов подготовки датасетов, а не только разовых проектов.
Умение выстраивать работу команды в условиях быстро меняющихся требований.
Сильные управленческие и коммуникационные навыки.

Будет плюсом

Опыт работы с данными для LLM, recommendation systems или других сложных ML-продуктов.
Понимание специфики датасетов для online RL, cold start, reward modeling.
Опыт построения quality control процессов для больших объёмов данных.
Опыт запуска новой команды или нового направления внутри крупной организации.
Понимание полного цикла post-training больших языковых моделей.

Что предлагаем

Оклад + годовой бонус.
Возможность с нуля построить важную для всей организации data-функцию.
Большое влияние на качество обучения и развитие GigaChat.
Сильные внутренние заказчики и задачи на переднем крае развития LLM.
Возможность собрать свою команду и определить принципы её работы.
Конкурентную компенсацию, премии и расширенный соцпакет.

О компании Сбер

Сфера

Банки / Финтех

Размер

1001+

Сбербанк — крупнейший банк в России, Центральной и Восточной Европе, один из ведущих международных финансовых институтов. Самый дорогой российский бренд и самый сильный банковский бренд в мире по версии Brand Finance.