Добрый день. Подскажите, пожалуйста, кто как запускал дообученную модель Nemo

Question

Добрый день. Подскажите, пожалуйста, кто как запускал дообученную модель Nemo

в прод?
Заметил интересную вещь, как riva. Так понял автоматически деплоит модель для прода (с участием tensorRT) из коробки (образа докера). Если правильно понял?
Нужно только модель в формат onnx конвертировать?

#it #russian #speech-recognition

0

31.01.2022

8 ответов

28 просмотров

Nik

О, на каком железе и за какое время?

0

31.01.2022

Vladislav Lupanov

Если есть gpu, то можно через риву, у них там библиотека есть готовая, nemo2riva. На цпу можно через tritonserver с onnx или torchscript бэкендом, ну или самому сервинг написать. В оникс или ts почти все немо модели через .export легко экспортируются.

0

31.01.2022

Max Автор вопроса

Vladislav Lupanov
Если есть gpu, то можно через риву, у них там библ...

А если самим писать, стоит модель конвертировать в какой-то иной формат нежели .ckpt/.nemo или без разницы?

0

31.01.2022

Max Автор вопроса

Nik
О, на каком железе и за какое время?

Не проводили сравнение, тоже интересно 😅

0

31.01.2022

Max Автор вопроса

Andrei ivanov
Trt умеет загружать модельки onnx, похоже что квар...

Спасибо за информацию, а не знаете будет ли стоит onnxruntime этого всего на цпу? К слову, тогда в любом случае нужно будет коробочный метод EncDecCTCModel.transcribe() расписывать для обработки сигнала?

0

31.01.2022

Oleg Romanovskyi

Vladislav Lupanov
Если есть gpu, то можно через риву, у них там библ...

в случае с triton с onnx, как можно прикрутить lm? Или тогда делать riva модель и сервить её через тритон?

0

31.01.2022

Vladislav Lupanov

Oleg Romanovskyi
в случае с triton с onnx, как можно прикрутить lm?...

Можно либо взять ривовский декодер (triton backend), который в риве есть, но он зависит от куды. Либо написать свой на питоне или плюсах. https://github.com/triton-inference-server/python_backend

0

31.01.2022

Andrei ivanov · Accepted Answer

Andrei ivanov

Trt умеет загружать модельки onnx, похоже что кварцнет очень легко инферится и так и эдак(onnxruntime/tensorRt) однако бывает что конфликтуют драйвер гпу и инфер-энжина и на практике может быть падение скорости вычислений

0

31.01.2022

26 похожих чатов

Добрый день. Подскажите, пожалуйста, кто как запускал дообученную модель Nemo

8 ответов

Похожие вопросы