Я немножко пробовал. Без языковой модели MMS хуже Виспера. С языковой моделью – MMS всё ещё ошибается чаще, но большая часть ошибок близки к исходной речи, тогда как Whisper изредка что-то галлюцинирует полностью от себя. Поэтому по субъективным ощущениям суммарный вред от ошибок там и там сопоставим.
На этой картинке WER Whisper’а сильно завышен за счет длинного хвоста языков, которые он якобы поддерживает, но по факту очень плохо. На высокоресурсных языках типа английского и русского, у Whisper WER сильно меньше.
Обсуждают сегодня