По сути сейчас небольшому стартапу масштабировать llama инференс весьма затратная

Question

По сути сейчас небольшому стартапу масштабировать llama инференс весьма затратная

тема. Даже такие модели Mistral 7b не сильно меняют ситуацию.

А подскажите, какие подходы есть, чтобы параллельные запросы на инференс отправлять, когда модель уже в памяти и занимает например 50%?

#nlp #programming #russian

0

09.11.2023

4 ответов

37 просмотров

Alexander

По реплике небольшой модели в каждую гпу и держать пиковую нагрузку

0

09.11.2023

Богдан Барабанщиков

Ну там все не так просто)

0

09.11.2023

Roma Romashkin

Богдан Барабанщиков
Ну там все не так просто)

Сегодня поймал себя на вопросе деления памяти через образы докеров. Скажите, а веса как-то можно по контейнерам раскинуть и будет ли от этого прирост?

0

09.11.2023

Богдан Барабанщиков · Accepted Answer

Богдан Барабанщиков

Запустить два воркера. К примеру через докер выделить конкретное число памяти и cuda ядер

0

09.11.2023

170 похожих чатов

По сути сейчас небольшому стартапу масштабировать llama инференс весьма затратная

4 ответов

Похожие вопросы