170 похожих чатов

Какой самый простой способ деплоя модели для инференса? Fastapi?

19 ответов

31 просмотр

Он простой, но однопоточный, насколько понял. Не подходит для параллельных запросов от разных скриптов

Vadim- Автор вопроса
Vadim
Можете что-то посоветовать?

Тут советуют https://github.com/huggingface/text-generation-inference но я не пробовал

Vadim- Автор вопроса
miteigi nemoto
Тут советуют https://github.com/huggingface/text-g...

Мб ещё знаете что-то для инференса распознавания картинок?

LLM моделей? FastAPI - если сделать попроще и побыстрее vLLM, если нужно эффективно использовать имеющееся железо (он умеет Ray, и dynamic batching)

Rinat Abdullin
LLM моделей? FastAPI - если сделать попроще и поб...

в фаст апи я также могу прикрутить и рей и все что мне надо. Так как это мной написанный сервер, то кастомизация \ оптимизация ничем не ограничены.

Ruslan Ishtuganov
в фаст апи я также могу прикрутить и рей и все что...

> fastapi > мной написанный сервер Ладно бы про tornado, он реально заставляет прямо сетевое приложение писать, а у fastapi многовато всего под капотом, чтобы говорить про свободную кастомизацию/оптимизацию. Вот во сколько процессов/потоков он будет работать? Сколько экземпляров модели будет загружено в память? Будут ли страдать асинхронные обработчики от запуска compute-intensive blocking обработчиков по соседству?

text generation inference

Andrew Grigorev
> fastapi > мной написанный сервер Ладно бы про t...

а кто будет очередь писать обрабатывать для модели? батчи кто собирать будет? суцкевер? 2023 на улице, сейчас свой сервер это сильно больше чем тупо /get /post

Aleksandr
а кто будет очередь писать обрабатывать для модели...

изначальный вопрос такого не подразумевал 😊 > Какой самый простой способ деплоя модели для инференса? Fastapi?

Andrew Grigorev
изначальный вопрос такого не подразумевал 😊 > Как...

если вас спросить на чем писать модель вы с++ предложите?

Aleksandr
если вас спросить на чем писать модель вы с++ пред...

отвечу что вопрос задал какой-то некомпетентный чувак и на него не надо отвечать 😊 а вообще много хороших примеров что С++ для инференса это хорошо - llama.cpp, triton

Andrew Grigorev
отвечу что вопрос задал какой-то некомпетентный чу...

для этого и есть группы чтобы новички не собирали грабли лбом

Aleksandr
для этого и есть группы чтобы новички не собирали ...

вот я и стараюсь чтобы в такой группе новичкам не советовали на fastapi инференс делать

Andrew Grigorev
вот я и стараюсь чтобы в такой группе новичкам не ...

вы буквально советуете tornado для моделей на торче, зачем?)

Aleksandr
вы буквально советуете tornado для моделей на торч...

у вас есть связь с реальностью? где я такое советую?) я только говорю что "fastapi - свой сервер" это не верное утверждение, что оно может иметь место только для более низкоуровневого фреймворка

Похожие вопросы

Обсуждают сегодня

А еще в перле можно уже @arr1 + @arr2?
Sergei Zhmylove
49
Привет всем. появился вопрос. Разрабатываю сайт, в данный момент он запущен. Хостинг beget. Добавляю на сайт яндекс метрику с помощью полей client-settings (взято отсюда http...
Andrew
2
;.686 ;Система команд процессора 686 ;.MODEL FLAT,stdcall ;Модель памяти плоская, стандартный ;вызов процедуры ;option casemap:no...
Егор Анелькин
1
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
а как ловят такое ghci> res <- getPos2 urlt 0 (alist !! 0) 200 ghci> res SearchAtom (Search "www.google.com" "/search?q=" "Haskell") "haskell.org" (SearchTS [(2024-05-06 07:...
Fedor
14
Ребята, а из API геокодеров (по адресам в РФ) что сейчас актуального и есть ли среди актуального бесплатное/с нормаотным лимитом запросов? ситуация простая - на сайте периоди...
Dreamer_0x01 VeseloV
8
короче сгенерила мне эта штука код на ассемблере: struc string val { common local .value dq .value .value: if ~val eq db val end if db 0 } fo...
Vi Chapmann Chapmann
12
Всем привет! Массив вводится с клавиатуры, кол-во элементов неизвестно, поэтому я указал arr db 100 dup(?) С нахождением максимума проблем нет, а вот минимум почему-то всегд...
En Vind Av Sorg
11
Есть тут те у кого дети есть + 2 работы + в зал ходят + в семейной жизни все хорошо?
Abdul-Aziz M.
13
кто шарит: mattermost отслеживает что ты на пк запускаешь?
Valentin
13
Карта сайта