просто набор слов из аудио и таймкоды? Если просто вызвать asr_model.transcribe то отдаёт строки текста.
Может быть есть интуитивно понятный пример?
Попробуйте при вызове transcibe_speech.py указать параметр compute_timestamps=true
Не даёт добавить такой параметр. Пишет что нету import nemo.collections.asr as nemo_asr asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="stt_ru_conformer_ctc_large") asr_model.transcribe(['<your_audio>.wav']) Я так понимаю, что не тот метод использую?
при вызове самого питона через гидру надо добавить python nemo/examples/asr/transcribe_speech.py \ pretrained_name="stt_..." \ dataset_manifest=manifest.json \ output_filename=out.json \ compute_timestamps=true
Спасибо! Попробую
Обсуждают сегодня