215 похожих чатов

Всем привет! Подскажите, что можно использовать для масштабирования больших языковых модлей

(LLM) в продакшене для цели рапараллеливания запросов?

Описание ситуации:
Пытаемся масштабировать LLama2 70B Q4, необходимо обсепечить параллельность работы 30 клиентов при использовании чат-бота.
Аппаратное оснащение: 4 RTX 4090 на каждый из трёх инстансов (физических машин).
Для распараллеливания использовали uvicorn+fastapi, но не взлетело. При запуске каждого воркера требуется 11 Гб с каждой карты дополнительно (столько весит вся модель + эмэддинги для векторного хранилища). Соответственно, 30 воркеров запустить невозможно при таком подходе.

8 ответов

58 просмотров

я б думал в сторону взять кафку и rabbitMQ для управления запросами и распределения между инстансами чат-бота, далее - квантизация модели, чтоб уменьшить объём в памяти, ну и смотреть в сторону микросервисной архитектуры в целом. использовать асинхронные запросы, можно пофайнтюнить модель. Так-то поводов для оптимизации найти можно много

Dan Capybara
я б думал в сторону взять кафку и rabbitMQ для упр...

А вы не знаете на NPU есть ли оптимизации любые?

Для начала, TensorFlow и PyTorch уже оптимизирован для NPU. А так, в целом, оптимизация всегда плюс/минус одинаковая: профилирование и рефакторинг кода (особенно узких мест), перевод на асинхронность, квантизация, масштабирование батча для более лучшего параллелилзма и улучшения производительности.

Dan Capybara
Для начала, TensorFlow и PyTorch уже оптимизирован...

Спасибо, можно уточнить тогда. 1. Pytorch gpu устанавливать, там вроде только gpu и only cpu 2. Готовая LLM 4 бит, меньше некуда вроде. Chunk size 1024. Асинхронность нельзя сделать насколько мне известно в этом случае. Всякие cuBLAS не поставить. В итоге 2 минуты выполняется ответ на запрос.

Dmitry
Спасибо, можно уточнить тогда. 1. Pytorch gpu уста...

А какое железо? Есть ещё один не сильно популярный способ оптимизации: больше хорошего и нового железа :3

Dan Capybara
А какое железо? Есть ещё один не сильно популярный...

Вот я тут не подскажу сильно, но куча CPU с низкой частотой. Как по мне все что связано с LLM делают только на GPU, NPU вроде для другого, т.е. как туже GPT в несколько потоков запускать непонятно

Дмитрий Люткин
А в чем проблема инпут батчем подать?

Проблема в том, что на NPU только CPU много и все

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта