170 похожих чатов

Коллеги, ай нид хэлп! Запустил инфиренс Сайги-2 70b, код запуска

со страницы модели HF с небольшими правками. Но! Оно ооооочень медленное. Что бы получить элементарный ответ пол часа уходит (не фигура речи).
Код запуска:
config = PeftConfig.from_pretrained(MODEL_NAME)

quantization_config = BitsAndBytesConfig(llm_int8_enable_fp32_cpu_offload=True)

model = AutoModelForCausalLM.from_pretrained(
config.base_model_name_or_path,
load_in_8bit=True,
torch_dtype=torch.float16,
device_map="auto",
quantization_config=quantization_config

)
model = PeftModel.from_pretrained(
model,
MODEL_NAME,
torch_dtype=torch.float16
)
Загрузка ГПУ на скрине
Чего ему не хватает?

11 ответов

17 просмотров

CPU написано забито на 100%

Konstantin-Galagan Автор вопроса
Alexander
CPU написано забито на 100%

Оно стабильно жрет одно ядро 31 оствльные курят

Странно я ее на 12400 крутил в 4 битной квантизации. Она выдавала 1-2токена в секунду.

llm_int8_enable_fp32_cpu_offload=True? а зачем?

Konstantin-Galagan Автор вопроса
Ilya Gusev
llm_int8_enable_fp32_cpu_offload=True? а зачем?

без этого не хотело взлетать с параметром load_in_8bit=True. Без параметра взлетело Но тоже тормозааааа

Konstantin-Galagan Автор вопроса
Ilya Gusev
а почему без него не запускалось?

тогда надо вырубать load_in_8bit=True

Konstantin Galagan
тогда надо вырубать load_in_8bit=True

тогда модель в память не поместится

Konstantin-Galagan Автор вопроса
Konstantin Galagan
80 Гб мало?

в 16 битах - естественно

Konstantin-Galagan Автор вопроса
Ilya Gusev
в 16 битах - естественно

Модель загрузилась

Похожие вопросы

Обсуждают сегодня

Подобного рода ;Следующие три строки это директивы ассемблера, ;которые можно не задавать, т.к.работаем в Visual Studio. ;Символ ";" - это начало однострочного комментария ...
Егор Анелькин
3
А еще в перле можно уже @arr1 + @arr2?
Sergei Zhmylove
53
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
Привет всем. появился вопрос. Разрабатываю сайт, в данный момент он запущен. Хостинг beget. Добавляю на сайт яндекс метрику с помощью полей client-settings (взято отсюда http...
Andrew
2
Подскажите, где смотреть результат выполнения программы? Код: ;.686 ;Система команд процессора 686 ;.MODEL FLAT,stdcall ;Модель памяти плоская, станда...
Егор Анелькин
5
Где в Астане можно купить мясо для шашлыков?
Dancing Іңұқәһүғө
21
;.686 ;Система команд процессора 686 ;.MODEL FLAT,stdcall ;Модель памяти плоская, стандартный ;вызов процедуры ;option casemap:no...
Егор Анелькин
1
Добрый день подскажите пожалуйста может кто то сталкивался с ошибками Sentry 22.10.0 развернутым из helm чарт в Kubernetes? Изначально 3 дня назад очень стало много событий ух...
Tire4 Finist Devops
1
всем привет почти закончил курс После него можно писать свою операционку? Какие библиотеки надо использовать и куда дальше копать для изучения
Linus
22
почому оно не работает?
Vi Chapmann ٩( 💢•̀ з•́)و Chapmann
19
Карта сайта