7b GGUF (q8_0) через llama.cpp на Apple Silicon?
У меня через 2-3 вопроса выплёвывает Llama.generate: prefix-match hit и больше не отвечает, приходится перезапускать.
Нашёл issue в llama.cpp, но там пока тишина https://github.com/PromtEngineer/localGPT/issues/282
Может подскажете в какую сторону можно посмотреть?
Я это дело в как то в while true: try-except зациклил, вполне себе вариант)
Обсуждают сегодня