и та же скорость лламы2 gguf? (6 токенов в секунду). Использовал llama-cpp-python с cublas, карта работает и грузится, вмещаются все слои. Карта старая, tesla m60.
Проверяйте работает при этом GPU или CPU. Флаг GPU: BLAS=1 если 0 то CPU
Тут подробности For the installation and the solution that produced the result, see user jllllllllll's post: Problem to install llama-cpp-python on Windows 10 with GPU NVidia Support CUBlast, BLAS = 0 #721 https://github.com/abetlen/llama-cpp-python/issues/721#issuecomment-1723205068
blas 1, гпу грузится и утилизируется в nvidia-smi
Я особо не спец, ставил стандартную llama-cpp-python она работала только в режиме CPU. Переставлял по той ссылке, что скинул, после этого BLAS стал 1. После этого все заработало намного быстрее.
ну как, 6.58 токенов в секунду на гпу против 5.97 на цпу. А что у вас за карта? просто хочу убедиться что не руки кривые а карта старая
а n_gpu_layers в максимум стоит?
не уверен, что это автоматически выгружает все слои
и всё равно лучше руками поставить
да-да, уже запустил)
n_gpu_layers мне гугловский бард считал по скрину с этой проги :) https://www.techpowerup.com/gpuz/
RTX 3060 has 3,584 CUDA cores. Dividing this number by 32 gives us an estimate of 114 n-gpu-layers.
какой эстимейт, это параметр модели
Обсуждают сегодня