170 похожих чатов

Ребят, всем привет. Насколько большая разница в скорости инференса ллм между

rtx 4090(V100) и A100?

Сейчас на v100 запустил saiga2-13b в 4 бит и работает как-то медленно. Где-то по 10-20 сек на ответ в несколько предложений.

Как вообще сделать так, чтобы ответ создавался быстрее? Видел сервисы, в которых токены очень быстрым потоком летят.

10 ответов

18 просмотров

V100 это уже прошлый век, в 8бит инференс у 4090 будет в раза 3+ быстрее точно

У меня на 3090 13В модели в 4bit/fp16 инферят 500токенов +- за 2-5сек

Kirill- Автор вопроса

Так, сори за неграмотность. Думал что v100 и 4090 это одно и тоже раз там по 24 гб и от нвидиа)))) Ну вот у меня на 4090 и довольно медленно генерит ответ. Подаю около 1-2к токенов контекста, ответ в 5-10 предложений занимает 10-20 секунд. Или так и должно быть? Запускаю saiga2-13b(лора-адаптер на llama2-13b) в 4bit через bitsandbytes и Peft При этом я через nvtop смотрю, у меня видеопамяти используется 13-20гб, а нагрузка на гпу только процентов 30-40. То есть кажется, что неполная утилизация gpu. Мб у кого-то что-то похожее было?

Kirill
Так, сори за неграмотность. Думал что v100 и 4090 ...

разве есть V100 на 24 гб? видел только 16 и 32

Kirill
Так, сори за неграмотность. Думал что v100 и 4090 ...

у меня также 30-40% GPU задействовано, но это как тут подмечали иллюзорно - поскольку нужно данные на проц отправлять возникает задержка и кажется, что карта не работает на всю мощь. у меня также используется только одно ядро проца.

занимает 10-20 секунд.... да вполне может быть так и есть... адаптер кстати еще замедляет вроде как. какой процессор?

Kirill- Автор вопроса
miteigi nemoto
занимает 10-20 секунд.... да вполне может быть так...

AMD EPYC 7532 32-Cores Думаешь проблема в боттлнеке по процессору? Он же кажется там вообще не особо нужен? 1 раз загрузил контекст на гпу и все, дальше вся кухня там и происходит. Или нет?

Kirill
AMD EPYC 7532 32-Cores Думаешь проблема в боттлнек...

1. Это в облаке? 2. Если при инференсе задействовано только одно ядро, Single Thread Rating: 2137 у проца низки, то конечно будет медленее 3. V100 что за модель-то в итоге?

Kirill
AMD EPYC 7532 32-Cores Думаешь проблема в боттлнек...

Можешь прислать свой код инференса - могу запустить на своей системе с 3090 и i9-13900KF DDR5 - сравним

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта