Подскажите пожалуйста, может я не совсем понимаю В чем разница, между

Question

Подскажите пожалуйста, может я не совсем понимаю В чем разница, между

двумя вариантами:
* AutoGPTQForCausalLM.from_quantized("fffrrt/ruGPT-3.5-13B-GPTQ") и потом `GPTQLoraConfig`
* и AutoModelForCausalLM.from_pretrained("ai-forever/ruGPT-3.5-13B", quantization_config=bnb_config), где в конфиге load_in_4bit=True и потом LoraConfig?

Модель и там, и там 7 гигов и в инт4, наскоько я понял по блогу https://huggingface.co/blog/4bit-transformers-bitsandbytes QLora работает из коробки
В чем тогда смысл первого варианта?

#nlp #programming #russian

0

11.09.2023

1 ответов

27 просмотров

Vladimir P · Accepted Answer

Vladimir P

Это все таки разные форматы, время инференса и количество необходимой памяти могут отличаться, как и качество генерации. Вроде бы gptq версия должна быть более быстрой при инференсе, но я не проверял

0

11.09.2023

170 похожих чатов

Подскажите пожалуйста, может я не совсем понимаю В чем разница, между

1 ответов

Похожие вопросы