170 похожих чатов

Какой самый простой способ деплоя модели для инференса? Fastapi?

19 ответов

70 просмотров

Он простой, но однопоточный, насколько понял. Не подходит для параллельных запросов от разных скриптов

Vadim- Автор вопроса
Vadim
Можете что-то посоветовать?

Тут советуют https://github.com/huggingface/text-generation-inference но я не пробовал

Vadim- Автор вопроса
miteigi nemoto
Тут советуют https://github.com/huggingface/text-g...

Мб ещё знаете что-то для инференса распознавания картинок?

LLM моделей? FastAPI - если сделать попроще и побыстрее vLLM, если нужно эффективно использовать имеющееся железо (он умеет Ray, и dynamic batching)

Rinat Abdullin
LLM моделей? FastAPI - если сделать попроще и поб...

в фаст апи я также могу прикрутить и рей и все что мне надо. Так как это мной написанный сервер, то кастомизация \ оптимизация ничем не ограничены.

Ruslan Ishtuganov
в фаст апи я также могу прикрутить и рей и все что...

> fastapi > мной написанный сервер Ладно бы про tornado, он реально заставляет прямо сетевое приложение писать, а у fastapi многовато всего под капотом, чтобы говорить про свободную кастомизацию/оптимизацию. Вот во сколько процессов/потоков он будет работать? Сколько экземпляров модели будет загружено в память? Будут ли страдать асинхронные обработчики от запуска compute-intensive blocking обработчиков по соседству?

text generation inference

Andrew Grigorev
> fastapi > мной написанный сервер Ладно бы про t...

а кто будет очередь писать обрабатывать для модели? батчи кто собирать будет? суцкевер? 2023 на улице, сейчас свой сервер это сильно больше чем тупо /get /post

Aleksandr
а кто будет очередь писать обрабатывать для модели...

изначальный вопрос такого не подразумевал 😊 > Какой самый простой способ деплоя модели для инференса? Fastapi?

Andrew Grigorev
изначальный вопрос такого не подразумевал 😊 > Как...

если вас спросить на чем писать модель вы с++ предложите?

Aleksandr
если вас спросить на чем писать модель вы с++ пред...

отвечу что вопрос задал какой-то некомпетентный чувак и на него не надо отвечать 😊 а вообще много хороших примеров что С++ для инференса это хорошо - llama.cpp, triton

Andrew Grigorev
отвечу что вопрос задал какой-то некомпетентный чу...

для этого и есть группы чтобы новички не собирали грабли лбом

Aleksandr
для этого и есть группы чтобы новички не собирали ...

вот я и стараюсь чтобы в такой группе новичкам не советовали на fastapi инференс делать

Andrew Grigorev
вот я и стараюсь чтобы в такой группе новичкам не ...

вы буквально советуете tornado для моделей на торче, зачем?)

Aleksandr
вы буквально советуете tornado для моделей на торч...

у вас есть связь с реальностью? где я такое советую?) я только говорю что "fastapi - свой сервер" это не верное утверждение, что оно может иметь место только для более низкоуровневого фреймворка

Похожие вопросы

Обсуждают сегодня

30500 за редактор? )
Владимир
47
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
вы делали что-то подобное и как? может есть либы готовые? увидел картинку нокода, где всё линиями соединено и стало интересно попробовать то же в ddl на lua сделать. решил с ч...
Victor
8
Подскажите пожалуйста, как в CustomDrawCell(Sender: TcxCustomGridTableView; ACanvas: TcxCanvas; AViewInfo: TcxGridTableDataCellViewInfo; var ADone: Boolean); получить наз...
A Z
7
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
1
Он в одиночку это дело запилил или была какая-то команда?
Aquinary
12
~ 2m21s  nix shell github:nixos/nixpkgs#stack ~  stack ghc -- --version error: … while calling the 'derivationStrict' builtin at /builtin/derivation.nix:...
Rebuild your mind.
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Карта сайта