Добрый день. Подскажите, пожалуйста, кто как запускал дообученную модель Nemo

в прод?
Заметил интересную вещь, как riva. Так понял автоматически деплоит модель для прода (с участием tensorRT) из коробки (образа докера). Если правильно понял?
Нужно только модель в формат onnx конвертировать?

8 ответов

24 просмотра

Trt умеет загружать модельки onnx, похоже что кварцнет очень легко инферится и так и эдак(onnxruntime/tensorRt) однако бывает что конфликтуют драйвер гпу и инфер-энжина и на практике может быть падение скорости вычислений

О, на каком железе и за какое время?

Если есть gpu, то можно через риву, у них там библиотека есть готовая, nemo2riva. На цпу можно через tritonserver с onnx или torchscript бэкендом, ну или самому сервинг написать. В оникс или ts почти все немо модели через .export легко экспортируются.

Max- Автор вопроса
Vladislav Lupanov
Если есть gpu, то можно через риву, у них там библ...

А если самим писать, стоит модель конвертировать в какой-то иной формат нежели .ckpt/.nemo или без разницы?

Max- Автор вопроса
Nik
О, на каком железе и за какое время?

Не проводили сравнение, тоже интересно 😅

Max- Автор вопроса
Andrei ivanov
Trt умеет загружать модельки onnx, похоже что квар...

Спасибо за информацию, а не знаете будет ли стоит onnxruntime этого всего на цпу? К слову, тогда в любом случае нужно будет коробочный метод EncDecCTCModel.transcribe() расписывать для обработки сигнала?

Vladislav Lupanov
Если есть gpu, то можно через риву, у них там библ...

в случае с triton с onnx, как можно прикрутить lm? Или тогда делать riva модель и сервить её через тритон?

Oleg Romanovskyi
в случае с triton с onnx, как можно прикрутить lm?...

Можно либо взять ривовский декодер (triton backend), который в риве есть, но он зависит от куды. Либо написать свой на питоне или плюсах. https://github.com/triton-inference-server/python_backend

Похожие вопросы

Обсуждают сегодня

Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
1
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Коллеги, я тут для личных нужд пошел ставить MQTT сервер, пощупал mosquitto, но ужаснулся отсутствию такой банальности, как HTTP API для посмотреть список топиков. А тут что,...
Maksim Lapshin
14
У меня задача: написать брокер сообщений. Очереди и потребители. Очереди поддерживают приоритеты. Очередь отдает сообщения, только обработчикам с соответствующими характеристи...
Aleksandr Filippov
2
Решил тут попробовать embassy на bluepill. Все установил, собрал blink и успешно залил с помощью St link 2 китайского. Но после этого чип шиться перестал. На форумах прочел, ч...
Lukutin R2AJP
6
Немного оффтопа: а кто на чем сидит для осдева в плане ide/редактора? Последнее время сидел на vscode, но я его прям не могу нормально воспринимать, перешел на сlion, но меня...
Evg Resh
29
Карта сайта