Ребят, всем привет. Насколько большая разница в скорости инференса ллм между

Question

Ребят, всем привет. Насколько большая разница в скорости инференса ллм между

rtx 4090(V100) и A100?

Сейчас на v100 запустил saiga2-13b в 4 бит и работает как-то медленно. Где-то по 10-20 сек на ответ в несколько предложений.

Как вообще сделать так, чтобы ответ создавался быстрее? Видел сервисы, в которых токены очень быстрым потоком летят.

#nlp #programming #russian

0

13.09.2023

10 ответов

37 просмотров

Антон Легченко

У меня на 3090 13В модели в 4bit/fp16 инферят 500токенов +- за 2-5сек

0

13.09.2023

Kirill Автор вопроса

Так, сори за неграмотность. Думал что v100 и 4090 это одно и тоже раз там по 24 гб и от нвидиа)))) Ну вот у меня на 4090 и довольно медленно генерит ответ. Подаю около 1-2к токенов контекста, ответ в 5-10 предложений занимает 10-20 секунд. Или так и должно быть? Запускаю saiga2-13b(лора-адаптер на llama2-13b) в 4bit через bitsandbytes и Peft При этом я через nvtop смотрю, у меня видеопамяти используется 13-20гб, а нагрузка на гпу только процентов 30-40. То есть кажется, что неполная утилизация gpu. Мб у кого-то что-то похожее было?

0

13.09.2023

Михаил

Kirill
Так, сори за неграмотность. Думал что v100 и 4090 ...

разве есть V100 на 24 гб? видел только 16 и 32

0

13.09.2023

Roman Roman

Михаил
разве есть V100 на 24 гб? видел только 16 и 32

Нет на 24

0

13.09.2023

miteigi nemoto

Kirill
Так, сори за неграмотность. Думал что v100 и 4090 ...

у меня также 30-40% GPU задействовано, но это как тут подмечали иллюзорно - поскольку нужно данные на проц отправлять возникает задержка и кажется, что карта не работает на всю мощь. у меня также используется только одно ядро проца.

0

13.09.2023

miteigi nemoto

занимает 10-20 секунд.... да вполне может быть так и есть... адаптер кстати еще замедляет вроде как. какой процессор?

0

13.09.2023

Kirill Автор вопроса

miteigi nemoto
занимает 10-20 секунд.... да вполне может быть так...

AMD EPYC 7532 32-Cores Думаешь проблема в боттлнеке по процессору? Он же кажется там вообще не особо нужен? 1 раз загрузил контекст на гпу и все, дальше вся кухня там и происходит. Или нет?

0

13.09.2023

miteigi nemoto

Kirill
AMD EPYC 7532 32-Cores Думаешь проблема в боттлнек...

1. Это в облаке? 2. Если при инференсе задействовано только одно ядро, Single Thread Rating: 2137 у проца низки, то конечно будет медленее 3. V100 что за модель-то в итоге?

0

13.09.2023

miteigi nemoto

Kirill
AMD EPYC 7532 32-Cores Думаешь проблема в боттлнек...

Можешь прислать свой код инференса - могу запустить на своей системе с 3090 и i9-13900KF DDR5 - сравним

0

13.09.2023

Roman Roman · Accepted Answer

Roman Roman

V100 это уже прошлый век, в 8бит инференс у 4090 будет в раза 3+ быстрее точно

0

13.09.2023

170 похожих чатов

Ребят, всем привет. Насколько большая разница в скорости инференса ллм между

10 ответов

Похожие вопросы