170 похожих чатов

Какой самый простой способ деплоя модели для инференса? Fastapi?

19 ответов

73 просмотра

Он простой, но однопоточный, насколько понял. Не подходит для параллельных запросов от разных скриптов

Vadim- Автор вопроса
Vadim
Можете что-то посоветовать?

Тут советуют https://github.com/huggingface/text-generation-inference но я не пробовал

Vadim- Автор вопроса
miteigi nemoto
Тут советуют https://github.com/huggingface/text-g...

Мб ещё знаете что-то для инференса распознавания картинок?

LLM моделей? FastAPI - если сделать попроще и побыстрее vLLM, если нужно эффективно использовать имеющееся железо (он умеет Ray, и dynamic batching)

Rinat Abdullin
LLM моделей? FastAPI - если сделать попроще и поб...

в фаст апи я также могу прикрутить и рей и все что мне надо. Так как это мной написанный сервер, то кастомизация \ оптимизация ничем не ограничены.

Ruslan Ishtuganov
в фаст апи я также могу прикрутить и рей и все что...

> fastapi > мной написанный сервер Ладно бы про tornado, он реально заставляет прямо сетевое приложение писать, а у fastapi многовато всего под капотом, чтобы говорить про свободную кастомизацию/оптимизацию. Вот во сколько процессов/потоков он будет работать? Сколько экземпляров модели будет загружено в память? Будут ли страдать асинхронные обработчики от запуска compute-intensive blocking обработчиков по соседству?

text generation inference

Andrew Grigorev
> fastapi > мной написанный сервер Ладно бы про t...

а кто будет очередь писать обрабатывать для модели? батчи кто собирать будет? суцкевер? 2023 на улице, сейчас свой сервер это сильно больше чем тупо /get /post

Aleksandr
а кто будет очередь писать обрабатывать для модели...

изначальный вопрос такого не подразумевал 😊 > Какой самый простой способ деплоя модели для инференса? Fastapi?

Andrew Grigorev
изначальный вопрос такого не подразумевал 😊 > Как...

если вас спросить на чем писать модель вы с++ предложите?

Aleksandr
если вас спросить на чем писать модель вы с++ пред...

отвечу что вопрос задал какой-то некомпетентный чувак и на него не надо отвечать 😊 а вообще много хороших примеров что С++ для инференса это хорошо - llama.cpp, triton

Andrew Grigorev
отвечу что вопрос задал какой-то некомпетентный чу...

для этого и есть группы чтобы новички не собирали грабли лбом

Aleksandr
для этого и есть группы чтобы новички не собирали ...

вот я и стараюсь чтобы в такой группе новичкам не советовали на fastapi инференс делать

Andrew Grigorev
вот я и стараюсь чтобы в такой группе новичкам не ...

вы буквально советуете tornado для моделей на торче, зачем?)

Aleksandr
вы буквально советуете tornado для моделей на торч...

у вас есть связь с реальностью? где я такое советую?) я только говорю что "fastapi - свой сервер" это не верное утверждение, что оно может иметь место только для более низкоуровневого фреймворка

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта