использования riva, triton.
Вы не замечали, что если запускать распознавание моделью на том же сервисе, где принимаете запросы, то запросы в таком случае не получается обрабатывать параллельно (даже если запущено 10 воркеров)?
Какие могут быть варианты решения, кроме запуска нескольких очередей для распознавания? Это вообще норм решение? Или лучше несколько инстансов сервиса поднять?
Я пробовал настроить многопроцессорность на своем сервисе (grpc), но модель стала значительно медленнее (хотя по графику top казалось, что обрабатывает параллельно, но как будто остальным процессам не хватало ресурсов для быстрого распознавания)
Распознаю на cpu, ибо с gpu время ответа почему-то больше, чем с cpu. Ещё одна загадка.
Может кто-то сравнивал свою реализацию с готовыми типа openvino - тоже интересно, на сколько готовое лучше своего? Или может наоборот...
Такая схема позволяла полностью нагрузить 3090.
Обсуждают сегодня