одинаковым размером весов при загрузки с параметром квантизации ведут себя по разному? Одна нормально загружается в гпу, расходуя минимально озу, другая загружает сначала всю озу, потом перенаправляется в гпу? Есть какая настройка такого поведения?
Чтобы не ограничиваться "телепатами" попробуйте перезадать свой вопрос следуя казалось бы очевидным советам из другого чатика https://github.com/av-maslov/r-group-rules/blob/master/README.md#%D0%BA%D0%B0%D0%BA-%D0%B7%D0%B0%D0%B4%D0%B0%D1%82%D1%8C-%D0%B2%D0%BE%D0%BF%D1%80%D0%BE%D1%81 Да. В transformers есть опции загрузки моделей и там можно собрать комбинацию как для загрузки через гпу, так и с предварительным попаданием в озу. И вдияние может оказывать содержимое файла конфига модели
Вообще обе модели загружаются одним и тем же кодом. Значит это прописано в карточках моделей. Я просмотрел config.json и значимых отличий не нашел. В каком другом файле могут быть настройки трансформера? TheBloke/guanaco-7B-HF NousResearch/Llama-2-7b-chat-hf код для загрузки model = LlamaForCausalLM.from_pretrained( base_model, load_in_4bit=True, device_map="auto", torch_dtype=torch.float16, # quantization_config=BitsAndBytesConfig( # load_in_4bit=True, # bnb_4bit_compute_dtype=torch.bfloat16, # bnb_4bit_use_double_quant=True, # bnb_4bit_quant_type='nf4' # ), )
они отличаются наличием .safetensors
ну вот если обе модели через ludwig загружать - то норм грузятся - одинакого. Видимо надо исходники ludwig копать
да нет же, я же правильно понимаю, что именно NousResearch/Llama-2-7b-chat-hf через озу загружается?
не, она как раз нормальн идет. Немного озу загрузит - переносит в гпу и так пока полностью не загрузится. А вот theblocke грзуит всю озу и потом в гпу
только ludwig как-то умеет ее хэндлить...надо разбираться в общем
это легко проверить, просто сохранить в safetensors и загрузить из них
Обсуждают сегодня