Куда копать, если и на цпу и с кудой одна

Question

Куда копать, если и на цпу и с кудой одна

и та же скорость лламы2 gguf? (6 токенов в секунду). Использовал llama-cpp-python с cublas, карта работает и грузится, вмещаются все слои. Карта старая, tesla m60.

#nlp #programming #russian

0

19.09.2023

14 ответов

64 просмотра

Игорь

Тут подробности For the installation and the solution that produced the result, see user jllllllllll's post: Problem to install llama-cpp-python on Windows 10 with GPU NVidia Support CUBlast, BLAS = 0 #721 https://github.com/abetlen/llama-cpp-python/issues/721#issuecomment-1723205068

0

19.09.2023

Павел Автор вопроса

Игорь
Тут подробности For the installation and the solu...

blas 1, гпу грузится и утилизируется в nvidia-smi

0

19.09.2023

Игорь

Павел

blas 1, гпу грузится и утилизируется в nvidia-smi

Я особо не спец, ставил стандартную llama-cpp-python она работала только в режиме CPU. Переставлял по той ссылке, что скинул, после этого BLAS стал 1. После этого все заработало намного быстрее.

0

19.09.2023

Павел Автор вопроса

Игорь
Я особо не спец, ставил стандартную llama-cpp-pyth...

ну как, 6.58 токенов в секунду на гпу против 5.97 на цпу. А что у вас за карта? просто хочу убедиться что не руки кривые а карта старая

0

19.09.2023

Ilya Gusev

а n_gpu_layers в максимум стоит?

0

19.09.2023

Павел Автор вопроса