Развиваем эффективный инференс LLM-моделей и формируем команду, которая займется развитием решения для сервинга больших языковых моделей. В этом году мы планируем запуск большого числа продуктов на основе LLM. Наши пользователи — более 40 миллионов клиентов Т-Банка.
Основной технический вызов — научиться выжимать максимум в генерации токенов в секунду с одной GPU при должном уровне качества. И делать это максимально эффективно с точки зрения потребления вычислительных ресурсов.
Вам и команде предстоит оптимизировать распределенный инференс и решать инфровые проблемы — такие как скорость обновления моделей на продакшене, размер которых может достигать сотен гигабайт.
Ищем специалиста, который готов стать экспертом в инференсе LLM-моделей. Вы будете искать практики ускорения, оценивать их применимость и реализовывать новые подходы в сервинге.
Примеры задач, в которых предстоит разбираться:
Будет много интересных задач и челленджей: RPS, требования по отказоустойчивости и производительности. У нас вы сможете научиться реализовывать все нужные подходы в собственном решении и придумывать свои.
Будет плюсом:
Т-Банк — онлайн-экосистема, основанная на финансовых и лайфстайл-услугах. Клиентами Т-Банка стали 36 млн. человек по всей России.