что инференс с GGLM Llama (cpp) НЕ распараллеливается при добавлении ядер (работает через llama-cpp-python) и скорость при добавлении ядер не увеличивается 😔 GPT-4 подтвердила, что так и есть. Может она конечно врет)) но у меня дурные предчувствия 😄 Камрады, ее что, реально нельзя ускорить добавлением ядер в облачном хостинге? Может какую-то либу другую можно взять? Кто уже пытался? 🙏
Как это не распараллеливаются?
я использую llama-cpp-python. то есть from llama_cpp import Llama и т.п.
Какая модель? Сколько оперативки?
Сайга 7b. 10 Гб оперативы. Могу еще добавить, только смысл? Мне нужно увеличить скорость генерации путем добавления ядер ЦПУ, а не много моделей в память грузить сразу.
Обсуждают сегодня