в этом тесте да
а есть такое но с не квантоваными?
Пока я видел только такие обширные тесты. Но не углублялся на каких именно задачах тестировалось. и это llama.cp https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
Average prompt eval time (ms/token) by GPUs. 4090 24GB | 0.92 4090 24GB * 2 | 3.44 2 gpu в 3+ раза медленнее чем 1
выглядит как 3+ раза, но на конкретном деле все может обстоять иначе и разница не будет кратной
Кажется, что проще взять на vast.ai инстанс на час за $1 и побенчмаркать свою задачу, а не верить чатику.
Обсуждают сегодня