Здравствуйте. Подскажите пожалуйста, если использовать такую модель https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/stt_ru_conformer_transducer_large как получить

Question

Здравствуйте. Подскажите пожалуйста, если использовать такую модель https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/stt_ru_conformer_transducer_large как получить

просто набор слов из аудио и таймкоды? Если просто вызвать asr_model.transcribe то отдаёт строки текста.
Может быть есть интуитивно понятный пример?

#it #russian #speech-recognition

0

14.05.2023

4 ответов

38 просмотров

Natalya S Автор вопроса

Alexandra A
Попробуйте при вызове transcibe_speech.py указать ...

Не даёт добавить такой параметр. Пишет что нету import nemo.collections.asr as nemo_asr asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="stt_ru_conformer_ctc_large") asr_model.transcribe(['<your_audio>.wav']) Я так понимаю, что не тот метод использую?

0

14.05.2023

Alexandra A

Natalya S
Не даёт добавить такой параметр. Пишет что нету im...

при вызове самого питона через гидру надо добавить python nemo/examples/asr/transcribe_speech.py \ pretrained_name="stt_..." \ dataset_manifest=manifest.json \ output_filename=out.json \ compute_timestamps=true

0

14.05.2023

Natalya S Автор вопроса

Alexandra A
при вызове самого питона через гидру надо добавить...

Спасибо! Попробую

0

14.05.2023

Alexandra A · Accepted Answer

Alexandra A

Попробуйте при вызове transcibe_speech.py указать параметр compute_timestamps=true

0

14.05.2023

26 похожих чатов

Здравствуйте. Подскажите пожалуйста, если использовать такую модель https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/stt_ru_conformer_transducer_large как получить

4 ответов

Похожие вопросы