215 похожих чатов

Всем привет! Подскажите, что можно использовать для масштабирования больших языковых модлей

(LLM) в продакшене для цели рапараллеливания запросов?

Описание ситуации:
Пытаемся масштабировать LLama2 70B Q4, необходимо обсепечить параллельность работы 30 клиентов при использовании чат-бота.
Аппаратное оснащение: 4 RTX 4090 на каждый из трёх инстансов (физических машин).
Для распараллеливания использовали uvicorn+fastapi, но не взлетело. При запуске каждого воркера требуется 11 Гб с каждой карты дополнительно (столько весит вся модель + эмэддинги для векторного хранилища). Соответственно, 30 воркеров запустить невозможно при таком подходе.

8 ответов

23 просмотра

я б думал в сторону взять кафку и rabbitMQ для управления запросами и распределения между инстансами чат-бота, далее - квантизация модели, чтоб уменьшить объём в памяти, ну и смотреть в сторону микросервисной архитектуры в целом. использовать асинхронные запросы, можно пофайнтюнить модель. Так-то поводов для оптимизации найти можно много

Dan 船長
я б думал в сторону взять кафку и rabbitMQ для упр...

А вы не знаете на NPU есть ли оптимизации любые?

Для начала, TensorFlow и PyTorch уже оптимизирован для NPU. А так, в целом, оптимизация всегда плюс/минус одинаковая: профилирование и рефакторинг кода (особенно узких мест), перевод на асинхронность, квантизация, масштабирование батча для более лучшего параллелилзма и улучшения производительности.

Dan 船長
Для начала, TensorFlow и PyTorch уже оптимизирован...

Спасибо, можно уточнить тогда. 1. Pytorch gpu устанавливать, там вроде только gpu и only cpu 2. Готовая LLM 4 бит, меньше некуда вроде. Chunk size 1024. Асинхронность нельзя сделать насколько мне известно в этом случае. Всякие cuBLAS не поставить. В итоге 2 минуты выполняется ответ на запрос.

Dmitry
Спасибо, можно уточнить тогда. 1. Pytorch gpu уста...

А какое железо? Есть ещё один не сильно популярный способ оптимизации: больше хорошего и нового железа :3

Dan 船長
А какое железо? Есть ещё один не сильно популярный...

Вот я тут не подскажу сильно, но куча CPU с низкой частотой. Как по мне все что связано с LLM делают только на GPU, NPU вроде для другого, т.е. как туже GPT в несколько потоков запускать непонятно

Dmitry
Вот я тут не подскажу сильно, но куча CPU с низкой...

А в чем проблема инпут батчем подать?

Дмитрий Люткин
А в чем проблема инпут батчем подать?

Проблема в том, что на NPU только CPU много и все

Похожие вопросы

Обсуждают сегодня

я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
49
читать файл максимально быстро? странный вопрос))
zamtmn
53
How to create an OS in C? what to study?
Linus
18
Привет, кто может сделать юзербота с апи? Задачи: - создавать группы - создавать каналы - задавать для созданных каналов аватарку или эмоджи, имя группы - добавлять в группы...
Lencore
11
тоесть, указав return eax, сгенерируется никому ненужная инструкция mov eax,eax ?
Aiwan \ (•◡•) / _bot
24
Компания Elif ищет менеджера проектов, который будет заниматься поиском и ведением новых проектов. Прежде чем приступить к работе, вам нужно пройти наш недельный курс, где вы ...
Elif
5
@HemulGM Параметры у AddStream поменялись? Несостыковка какая-то
Катерина Свиридова
12
Подскажите, есть какие-то события создания/уничтожения у TFrame по типу TForm (OnCreate и OnClose/OnDestroy) ? Как отловить создание TFrame и "перед" уничтожением. На Tframe р...
Денис
8
Добрый день. Созданию отношения таблиц для учёта кораблей, их движения между точками (портами) согласно расписания. Терзают сомнения в правильном ли направлении двигаюсь 😅 1...
Aleksey
1
а чем хуже?
Alexey Kulakov
10
Карта сайта