Добрый вечер! Реализую потоковое распознавание дообученного whisper-а с наложением чанков (конкретно

Question

Добрый вечер! Реализую потоковое распознавание дообученного whisper-а с наложением чанков (конкретно

сейчас распознаю новый и предыдущий, не совсем наложение, но с ним та же беда тогда будет)

Возникает такая ситуация, что в "предыдущем" чанке осталось окончание другого слова, и модель это недослово распознает.

Подскажите, пожалуйста, может есть алгоритмы как такие ситуации разрешить? Или кто что пробовал? 🥲

У алгоритма потокового распознавания для моделей немо, кажется, та же беда была...

#it #russian #speech-recognition

0

31.05.2023

2 ответов

28 просмотров

Max Автор вопроса

Gennadiy Bezkorovayniy
У Nemo есть tutorial для двух алгоритмов: Middle T...

Спасибо большое, буду вникать)

0

01.06.2023

Gennadiy Bezkorovayniy · Accepted Answer

У Nemo есть tutorial для двух алгоритмов: Middle Token и Longest Common Sequence. Их реализация LCS имела баги. Для своего решения мы ее переписали с нуля на основе оригинального документа Partially Overlapped Inference for Long-Form Speech Recognition (ссылка есть в tutorial). Tutorial, где объясняется принцип: https://colab.research.google.com/github/NVIDIA/NeMo/blob/stable/tutorials/asr/Buffered_Transducer_Inference_with_LCS_Merge.ipynb

26 похожих чатов

Добрый вечер! Реализую потоковое распознавание дообученного whisper-а с наложением чанков (конкретно

2 ответов

Похожие вопросы