❓подскажите где почитать про многопоточность инференса больших моделей в

Question

GPU или у кого опыт есть
—-
могу ли я в несколько потоков обращаться к модели через FAST_API или для каждого потока нужна своя загруженная модель ?

#nlp #programming #russian

0

03.08.2022

45 просмотров

>> А если хотите за 1 секунду отравить 3 реста и получить 3 предикта- то нет т.е. только увеличением памяти ?

0

03.08.2022

можно сделать очередь и батчить

0

03.08.2022

так общая скорость генерации не изменится что я собираю в пакет 8 запросов что я последовательно отправлю один за одним 8 запросов

0

03.08.2022

Max Kuznetsov · Accepted Answer

https://pytorch.org/serve/

0

03.08.2022