коммерческих решениях? Просто инфы очень мало по нему и статей. В основном, везде воск, виспер и иногда wav2vec. Пытаюсь понять в чем подвох, если по немо метрики и скорость лучше по сравнению с другими) из собственных экспериментов и из статьи Николая, где он сравнивает все модели стт
Сбербанк и вк используют, кварцент и конформеры. Подвоха нет, дело личных предпочтений.
Благодарю! 🙌 а то были сомнения прям.
Конформеры от Немо, которые с их сайта (conformer-tranducer) почему то часто пропускают слова. Т.е. бывает что в двух минутном аудио хорошего качества может быть пропущена последовательность из 3-4 слов подряд. На коротких до 30 секунд такого нет. Его только на коротких аудио можно использовать, а на длинных нарезать получается?
conformer-ctc почти не пропускает ничего
А там LM нужна? Или без нее можно?
можно без нее
Надо будет протестировать. Спасибо.
Обсуждают сегодня