тема. Даже такие модели Mistral 7b не сильно меняют ситуацию.
А подскажите, какие подходы есть, чтобы параллельные запросы на инференс отправлять, когда модель уже в памяти и занимает например 50%?
Запустить два воркера. К примеру через докер выделить конкретное число памяти и cuda ядер
По реплике небольшой модели в каждую гпу и держать пиковую нагрузку
Ну там все не так просто)
Сегодня поймал себя на вопросе деления памяти через образы докеров. Скажите, а веса как-то можно по контейнерам раскинуть и будет ли от этого прирост?
Обсуждают сегодня