обработать генерацию 10 промптов, а в том, чтобы обработку ОДНОГО промпта ускорить в 10 раз на 10 ядрах - это реально ли? это относится именно к GGLM. А если я вместо GGLM возьму Llama на PyTorch - тогда получится ускорить процесс генерации пуетм добавления ядер ЦПУ?
Попробуй другую 7B модель, может эта конкретна модель не параллелится? https://github.com/oobabooga/text-generation-webui/issues/1026
Чел пишет - ok, my own ignorance is at fault, I found that a vicuna ggml model will fully saturate all 64 CPU cores. I will try other GGML models to see how they fair. Hope this helps someone else.
Обсуждают сегодня