rtx 4090(V100) и A100?
Сейчас на v100 запустил saiga2-13b в 4 бит и работает как-то медленно. Где-то по 10-20 сек на ответ в несколько предложений.
Как вообще сделать так, чтобы ответ создавался быстрее? Видел сервисы, в которых токены очень быстрым потоком летят.
V100 это уже прошлый век, в 8бит инференс у 4090 будет в раза 3+ быстрее точно
У меня на 3090 13В модели в 4bit/fp16 инферят 500токенов +- за 2-5сек
Так, сори за неграмотность. Думал что v100 и 4090 это одно и тоже раз там по 24 гб и от нвидиа)))) Ну вот у меня на 4090 и довольно медленно генерит ответ. Подаю около 1-2к токенов контекста, ответ в 5-10 предложений занимает 10-20 секунд. Или так и должно быть? Запускаю saiga2-13b(лора-адаптер на llama2-13b) в 4bit через bitsandbytes и Peft При этом я через nvtop смотрю, у меня видеопамяти используется 13-20гб, а нагрузка на гпу только процентов 30-40. То есть кажется, что неполная утилизация gpu. Мб у кого-то что-то похожее было?
разве есть V100 на 24 гб? видел только 16 и 32
у меня также 30-40% GPU задействовано, но это как тут подмечали иллюзорно - поскольку нужно данные на проц отправлять возникает задержка и кажется, что карта не работает на всю мощь. у меня также используется только одно ядро проца.
занимает 10-20 секунд.... да вполне может быть так и есть... адаптер кстати еще замедляет вроде как. какой процессор?
AMD EPYC 7532 32-Cores Думаешь проблема в боттлнеке по процессору? Он же кажется там вообще не особо нужен? 1 раз загрузил контекст на гпу и все, дальше вся кухня там и происходит. Или нет?
1. Это в облаке? 2. Если при инференсе задействовано только одно ядро, Single Thread Rating: 2137 у проца низки, то конечно будет медленее 3. V100 что за модель-то в итоге?
Можешь прислать свой код инференса - могу запустить на своей системе с 3090 и i9-13900KF DDR5 - сравним
Обсуждают сегодня