Он простой, но однопоточный, насколько понял. Не подходит для параллельных запросов от разных скриптов
Можете что-то посоветовать?
я слышал про TorchServe
Тут советуют https://github.com/huggingface/text-generation-inference но я не пробовал
Мб ещё знаете что-то для инференса распознавания картинок?
LLM моделей? FastAPI - если сделать попроще и побыстрее vLLM, если нужно эффективно использовать имеющееся железо (он умеет Ray, и dynamic batching)
в фаст апи я также могу прикрутить и рей и все что мне надо. Так как это мной написанный сервер, то кастомизация \ оптимизация ничем не ограничены.
> fastapi > мной написанный сервер Ладно бы про tornado, он реально заставляет прямо сетевое приложение писать, а у fastapi многовато всего под капотом, чтобы говорить про свободную кастомизацию/оптимизацию. Вот во сколько процессов/потоков он будет работать? Сколько экземпляров модели будет загружено в память? Будут ли страдать асинхронные обработчики от запуска compute-intensive blocking обработчиков по соседству?
text generation inference
а кто будет очередь писать обрабатывать для модели? батчи кто собирать будет? суцкевер? 2023 на улице, сейчас свой сервер это сильно больше чем тупо /get /post
text generation inference
изначальный вопрос такого не подразумевал 😊 > Какой самый простой способ деплоя модели для инференса? Fastapi?
если вас спросить на чем писать модель вы с++ предложите?
отвечу что вопрос задал какой-то некомпетентный чувак и на него не надо отвечать 😊 а вообще много хороших примеров что С++ для инференса это хорошо - llama.cpp, triton
для этого и есть группы чтобы новички не собирали грабли лбом
вот я и стараюсь чтобы в такой группе новичкам не советовали на fastapi инференс делать
вы буквально советуете tornado для моделей на торче, зачем?)
у вас есть связь с реальностью? где я такое советую?) я только говорю что "fastapi - свой сервер" это не верное утверждение, что оно может иметь место только для более низкоуровневого фреймворка
Обсуждают сегодня