С чем может быть связано, что две вариации ламы-7b с

Question

С чем может быть связано, что две вариации ламы-7b с

одинаковым размером весов при загрузки с параметром квантизации ведут себя по разному? Одна нормально загружается в гпу, расходуя минимально озу, другая загружает сначала всю озу, потом перенаправляется в гпу? Есть какая настройка такого поведения?

#nlp #programming #russian

0

06.09.2023

8 ответов

17 просмотров

Виталий Автор вопроса

Leonid Y
Чтобы не ограничиваться "телепатами" попробуйте пе...

Вообще обе модели загружаются одним и тем же кодом. Значит это прописано в карточках моделей. Я просмотрел config.json и значимых отличий не нашел. В каком другом файле могут быть настройки трансформера? TheBloke/guanaco-7B-HF NousResearch/Llama-2-7b-chat-hf код для загрузки model = LlamaForCausalLM.from_pretrained( base_model, load_in_4bit=True, device_map="auto", torch_dtype=torch.float16, # quantization_config=BitsAndBytesConfig( # load_in_4bit=True, # bnb_4bit_compute_dtype=torch.bfloat16, # bnb_4bit_use_double_quant=True, # bnb_4bit_quant_type='nf4' # ), )

0

06.09.2023

Ilya Gusev

Виталий
Вообще обе модели загружаются одним и тем же кодом...

они отличаются наличием .safetensors

0

06.09.2023

Виталий Автор вопроса

Ilya Gusev
они отличаются наличием .safetensors

ну вот если обе модели через ludwig загружать - то норм грузятся - одинакого. Видимо надо исходники ludwig копать

0

06.09.2023

Ilya Gusev

Виталий
ну вот если обе модели через ludwig загружать - то...

да нет же, я же правильно понимаю, что именно NousResearch/Llama-2-7b-chat-hf через озу загружается?

0

06.09.2023

Виталий Автор вопроса

Ilya Gusev
да нет же, я же правильно понимаю, что именно Nous...

не, она как раз нормальн идет. Немного озу загрузит - переносит в гпу и так пока полностью не загрузится. А вот theblocke грзуит всю озу и потом в гпу

0

06.09.2023

Виталий Автор вопроса

только ludwig как-то умеет ее хэндлить...надо разбираться в общем

0

06.09.2023

Ilya Gusev

Виталий
только ludwig как-то умеет ее хэндлить...надо разб...

это легко проверить, просто сохранить в safetensors и загрузить из них

0

06.09.2023

Leonid Y · Accepted Answer

Чтобы не ограничиваться "телепатами" попробуйте перезадать свой вопрос следуя казалось бы очевидным советам из другого чатика https://github.com/av-maslov/r-group-rules/blob/master/README.md#%D0%BA%D0%B0%D0%BA-%D0%B7%D0%B0%D0%B4%D0%B0%D1%82%D1%8C-%D0%B2%D0%BE%D0%BF%D1%80%D0%BE%D1%81 Да. В transformers есть опции загрузки моделей и там можно собрать комбинацию как для загрузки через гпу, так и с предварительным попаданием в озу. И вдияние может оказывать содержимое файла конфига модели

170 похожих чатов

С чем может быть связано, что две вариации ламы-7b с

8 ответов

Похожие вопросы