170 похожих чатов

Какой самый простой способ деплоя модели для инференса? Fastapi?

19 ответов

68 просмотров

Он простой, но однопоточный, насколько понял. Не подходит для параллельных запросов от разных скриптов

Vadim- Автор вопроса
Vadim
Можете что-то посоветовать?

Тут советуют https://github.com/huggingface/text-generation-inference но я не пробовал

Vadim- Автор вопроса
miteigi nemoto
Тут советуют https://github.com/huggingface/text-g...

Мб ещё знаете что-то для инференса распознавания картинок?

LLM моделей? FastAPI - если сделать попроще и побыстрее vLLM, если нужно эффективно использовать имеющееся железо (он умеет Ray, и dynamic batching)

Rinat Abdullin
LLM моделей? FastAPI - если сделать попроще и поб...

в фаст апи я также могу прикрутить и рей и все что мне надо. Так как это мной написанный сервер, то кастомизация \ оптимизация ничем не ограничены.

Ruslan Ishtuganov
в фаст апи я также могу прикрутить и рей и все что...

> fastapi > мной написанный сервер Ладно бы про tornado, он реально заставляет прямо сетевое приложение писать, а у fastapi многовато всего под капотом, чтобы говорить про свободную кастомизацию/оптимизацию. Вот во сколько процессов/потоков он будет работать? Сколько экземпляров модели будет загружено в память? Будут ли страдать асинхронные обработчики от запуска compute-intensive blocking обработчиков по соседству?

text generation inference

Andrew Grigorev
> fastapi > мной написанный сервер Ладно бы про t...

а кто будет очередь писать обрабатывать для модели? батчи кто собирать будет? суцкевер? 2023 на улице, сейчас свой сервер это сильно больше чем тупо /get /post

Aleksandr
а кто будет очередь писать обрабатывать для модели...

изначальный вопрос такого не подразумевал 😊 > Какой самый простой способ деплоя модели для инференса? Fastapi?

Andrew Grigorev
изначальный вопрос такого не подразумевал 😊 > Как...

если вас спросить на чем писать модель вы с++ предложите?

Aleksandr
если вас спросить на чем писать модель вы с++ пред...

отвечу что вопрос задал какой-то некомпетентный чувак и на него не надо отвечать 😊 а вообще много хороших примеров что С++ для инференса это хорошо - llama.cpp, triton

Andrew Grigorev
отвечу что вопрос задал какой-то некомпетентный чу...

для этого и есть группы чтобы новички не собирали грабли лбом

Aleksandr
для этого и есть группы чтобы новички не собирали ...

вот я и стараюсь чтобы в такой группе новичкам не советовали на fastapi инференс делать

Andrew Grigorev
вот я и стараюсь чтобы в такой группе новичкам не ...

вы буквально советуете tornado для моделей на торче, зачем?)

Aleksandr
вы буквально советуете tornado для моделей на торч...

у вас есть связь с реальностью? где я такое советую?) я только говорю что "fastapi - свой сервер" это не верное утверждение, что оно может иметь место только для более низкоуровневого фреймворка

Похожие вопросы

Обсуждают сегодня

Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
я так понимаю, я так подозреваю, что создание такого плагина для человека, кто умеет писать плагины для делфи потребует минут 5-10 времени. но это мое подозрение. хотелось бы ...
Kraszx
7
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Коллеги, добрый вечер. Создаю коллекцию от TFPGMap, ключ - перечисление, значение - целое. Нужно отсортировать коллекцию по значению. Как это можно сделать?
Kirill Filippenok
11
Привет, такой вопросик появился кажется ли вам что Rust слишком сложный/строгий для высокоуровневого программирования и слишком "безопасный"/строгий для низкоуровневого?
Крокант
10
Скажи а ты когда этот канал создавал ты уже дельфи не любил, или это со временем пришло?
Роман Лях (rgreat)
18
Всем привет! Использую кастомное модальное диалоговое окошко, все по классике - mrOK, mrCancel как ModalResult. Однако есть нюанс - в главной форме есть универсальный обработч...
Олег Гранишевский
20
Карта сайта