170 похожих чатов

С чем может быть связано, что две вариации ламы-7b с

одинаковым размером весов при загрузки с параметром квантизации ведут себя по разному? Одна нормально загружается в гпу, расходуя минимально озу, другая загружает сначала всю озу, потом перенаправляется в гпу? Есть какая настройка такого поведения?

8 ответов

9 просмотров

Чтобы не ограничиваться "телепатами" попробуйте перезадать свой вопрос следуя казалось бы очевидным советам из другого чатика https://github.com/av-maslov/r-group-rules/blob/master/README.md#%D0%BA%D0%B0%D0%BA-%D0%B7%D0%B0%D0%B4%D0%B0%D1%82%D1%8C-%D0%B2%D0%BE%D0%BF%D1%80%D0%BE%D1%81 Да. В transformers есть опции загрузки моделей и там можно собрать комбинацию как для загрузки через гпу, так и с предварительным попаданием в озу. И вдияние может оказывать содержимое файла конфига модели

Виталий- Автор вопроса
Leonid Y
Чтобы не ограничиваться "телепатами" попробуйте пе...

Вообще обе модели загружаются одним и тем же кодом. Значит это прописано в карточках моделей. Я просмотрел config.json и значимых отличий не нашел. В каком другом файле могут быть настройки трансформера? TheBloke/guanaco-7B-HF NousResearch/Llama-2-7b-chat-hf код для загрузки model = LlamaForCausalLM.from_pretrained( base_model, load_in_4bit=True, device_map="auto", torch_dtype=torch.float16, # quantization_config=BitsAndBytesConfig( # load_in_4bit=True, # bnb_4bit_compute_dtype=torch.bfloat16, # bnb_4bit_use_double_quant=True, # bnb_4bit_quant_type='nf4' # ), )

Виталий- Автор вопроса
Ilya Gusev
они отличаются наличием .safetensors

ну вот если обе модели через ludwig загружать - то норм грузятся - одинакого. Видимо надо исходники ludwig копать

Виталий
ну вот если обе модели через ludwig загружать - то...

да нет же, я же правильно понимаю, что именно NousResearch/Llama-2-7b-chat-hf через озу загружается?

Виталий- Автор вопроса
Ilya Gusev
да нет же, я же правильно понимаю, что именно Nous...

не, она как раз нормальн идет. Немного озу загрузит - переносит в гпу и так пока полностью не загрузится. А вот theblocke грзуит всю озу и потом в гпу

Виталий- Автор вопроса

только ludwig как-то умеет ее хэндлить...надо разбираться в общем

Виталий
только ludwig как-то умеет ее хэндлить...надо разб...

это легко проверить, просто сохранить в safetensors и загрузить из них

Похожие вопросы

Обсуждают сегодня

Типа вызывать GetParent и проверять на соответствие GetModuleHandle?
The Bird of Hermes
67
Do any of you guys have interesting projects one could join? I'm a Middle Full-Stack developer (JS/TS, React & Node)
Lev Shapiro
40
Есть сайт. Там была древняя версия эво. Стоял плагин, который каждый коммент в Jot делал отдельной страницей. После обновления все слетело, теперь старница открывается отдельн...
Artem
1
Всем привет! Кто нибудь парсил в ручную JSON без библиотек и фреймворков? Есть может ссылки на оптимальный алгоритмы работы с текстом и примеры таких парсеров?
Lem
27
$res = json_decode($наша строка из респонса); $res1 = array_map(fn($o) => $o->name, $res->breadcrumbs[0]->entities); Как такое будет на Хаскеле?.. В начале весь джейсон, в ко...
Хаскель Моисеевич Гопник
27
Вопрос по диагностике ошибок (я знаю в чем, в данном конкретном примере, я знаю, как исправить, пример модельный, понятно, что в реальности бывает намного запутаннее). module...
ⰄⰎⰋⰐⰐⰑⰛⰤⰧⰧⰩⰄ ⰊⰑⰁⰓⰡⰛⰦⰕⰫ
11
В чем сила брат, в NASM или FASM?
Isaac Kleiner
18
А чем вам питонисты не угодили?😂
.
79
Есть какой-нибудь для Delphi/FPC T*Compression(Decompression)Stream на базе LZ4/Zstd/любой другой быстрый(и хорошо сжимающий) алгоритм А ещё лучше в pure pascal А ещё лучше од...
notme
52
Приветствую всех. Хочу начать изучать код для программирования микроконтроллеров и не пойму с чего начать. То ли с Си, то ли с плюсов. Чем языки вообще различаются. С чего мож...
Андрей
7
Карта сайта