сейчас распознаю новый и предыдущий, не совсем наложение, но с ним та же беда тогда будет)
Возникает такая ситуация, что в "предыдущем" чанке осталось окончание другого слова, и модель это недослово распознает.
Подскажите, пожалуйста, может есть алгоритмы как такие ситуации разрешить? Или кто что пробовал? 🥲
У алгоритма потокового распознавания для моделей немо, кажется, та же беда была...
У Nemo есть tutorial для двух алгоритмов: Middle Token и Longest Common Sequence. Их реализация LCS имела баги. Для своего решения мы ее переписали с нуля на основе оригинального документа Partially Overlapped Inference for Long-Form Speech Recognition (ссылка есть в tutorial). Tutorial, где объясняется принцип: https://colab.research.google.com/github/NVIDIA/NeMo/blob/stable/tutorials/asr/Buffered_Transducer_Inference_with_LCS_Merge.ipynb
Спасибо большое, буду вникать)
Обсуждают сегодня