двумя вариантами:
* AutoGPTQForCausalLM.from_quantized("fffrrt/ruGPT-3.5-13B-GPTQ") и потом `GPTQLoraConfig`
* и AutoModelForCausalLM.from_pretrained("ai-forever/ruGPT-3.5-13B", quantization_config=bnb_config), где в конфиге load_in_4bit=True и потом LoraConfig?
Модель и там, и там 7 гигов и в инт4, наскоько я понял по блогу https://huggingface.co/blog/4bit-transformers-bitsandbytes QLora работает из коробки
В чем тогда смысл первого варианта?
Это все таки разные форматы, время инференса и количество необходимой памяти могут отличаться, как и качество генерации. Вроде бы gptq версия должна быть более быстрой при инференсе, но я не проверял
Обсуждают сегодня