170 похожих чатов

С чем может быть связано, что две вариации ламы-7b с

одинаковым размером весов при загрузки с параметром квантизации ведут себя по разному? Одна нормально загружается в гпу, расходуя минимально озу, другая загружает сначала всю озу, потом перенаправляется в гпу? Есть какая настройка такого поведения?

8 ответов

17 просмотров

Чтобы не ограничиваться "телепатами" попробуйте перезадать свой вопрос следуя казалось бы очевидным советам из другого чатика https://github.com/av-maslov/r-group-rules/blob/master/README.md#%D0%BA%D0%B0%D0%BA-%D0%B7%D0%B0%D0%B4%D0%B0%D1%82%D1%8C-%D0%B2%D0%BE%D0%BF%D1%80%D0%BE%D1%81 Да. В transformers есть опции загрузки моделей и там можно собрать комбинацию как для загрузки через гпу, так и с предварительным попаданием в озу. И вдияние может оказывать содержимое файла конфига модели

Виталий- Автор вопроса
Leonid Y
Чтобы не ограничиваться "телепатами" попробуйте пе...

Вообще обе модели загружаются одним и тем же кодом. Значит это прописано в карточках моделей. Я просмотрел config.json и значимых отличий не нашел. В каком другом файле могут быть настройки трансформера? TheBloke/guanaco-7B-HF NousResearch/Llama-2-7b-chat-hf код для загрузки model = LlamaForCausalLM.from_pretrained( base_model, load_in_4bit=True, device_map="auto", torch_dtype=torch.float16, # quantization_config=BitsAndBytesConfig( # load_in_4bit=True, # bnb_4bit_compute_dtype=torch.bfloat16, # bnb_4bit_use_double_quant=True, # bnb_4bit_quant_type='nf4' # ), )

Виталий- Автор вопроса
Ilya Gusev
они отличаются наличием .safetensors

ну вот если обе модели через ludwig загружать - то норм грузятся - одинакого. Видимо надо исходники ludwig копать

Виталий
ну вот если обе модели через ludwig загружать - то...

да нет же, я же правильно понимаю, что именно NousResearch/Llama-2-7b-chat-hf через озу загружается?

Виталий- Автор вопроса
Ilya Gusev
да нет же, я же правильно понимаю, что именно Nous...

не, она как раз нормальн идет. Немного озу загрузит - переносит в гпу и так пока полностью не загрузится. А вот theblocke грзуит всю озу и потом в гпу

Виталий- Автор вопроса

только ludwig как-то умеет ее хэндлить...надо разбираться в общем

Виталий
только ludwig как-то умеет ее хэндлить...надо разб...

это легко проверить, просто сохранить в safetensors и загрузить из них

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта