Вроде whisper из коробки и wav2vec, если тюнить под другой язык
если русский, то vosk еще есть. смотря на какой железе запускать собираетесь
сперва все на Colab )
whisper - умеет сразу знаки препинания ставить, но может галлюцинировать wav2vec умеет вплоть до символа предсказать время, но без lm wer высокий получается, но зато быстро работает vosk маленький,шустрый. не давно еще и новую версию выпустили. вот тут в чате как раз можете уточнить https://t.me/speech_recognition_ru
увидел, спасибо )
увидел, спасибо )
Исходя из https://alphacephei.com/nsh/2023/01/22/russian-models.html И личного опыта могу посоветовать эти модели: https://huggingface.co/nvidia/stt_ru_conformer_transducer_large https://huggingface.co/nvidia/stt_ru_conformer_ctc_large В первой есть встроенная языковая модель, которая обучается править ошибки акустической. Вторая - просто акустическая модель. Что у той, что у другой есть свои плюсы и минусы, но на русском я ничего лучше не нашёл
увидел, спасибо )
а со скоростью как?
Датасет с аудио на 10к часов размечал около часа на цпу. Но если аудио длинные (более 25 сек), то скорость экспоненциально падает. В принципе, можно этого избежать, выключив слой внимания, но тогда ухудшается качество.
Обсуждают сегодня