при том, что в оригинал оригинальной статье wer у него больше, чем у того же заоптимизированного conformed large?
Видимо как и с GPT надеются через год-полтора получить универсальный инструмент и полностью закрыть вопрос задачи распознавания речи на разных языках. GPT-2 версия была довольно слабой. Много так мог генерировать гораздо более простыми моделями. Потом это все пришло к GPT-4 и уже другие модели стали мало нужны и с ней можно решать любую задачу.
Разрекламировали хорошо. Но у виспера есть интересные свойства тоже, например, поддержка всех языков сразу
Модели разных размеров (для разных юскейсов), много языков, таймстемпы, пунктуация, поддержка аудио любой длительности, форматов и тд.
Ну пока что все эти фичи далеки от идеала. Я пробовал делать распознавание на русском языке и результат мягко говоря не очень
На мой взгляд прекрасно работает, пользователям нравится. Из интересного могу заметить, что по сравнению с другими подходами песни очень даже хорошо распознает.
Хрень конечно полная, но красиво работает....
А вы попробуйте файнтьюненную под русский язык модель
бред
А где взять такую?
https://alphacephei.com/nsh/2023/01/22/russian-models.html Вот там все ссылки. Whisper adapted large к примеру
Чего бред? 10 гигов в видяхе вот это бред...
Зато пунктуацию делает)
Попробуйте faster whisper У меня на тестах он потребляет куда меньше при том же качестве
Так она и так есть отдельно ставь и все проблемы. Причем получше чем на виспере...
Думаю тут еще вопрос в том, что на виспере любой человек может сделать приемлемую расшифровку. В других надо стадийность моделей: движок распознавания, если разные языки - разные модели одновременно (а это другие затраты на железо), модели пунктуации и кейса, модель диаризации, совместить все это и т.п.
Я попытался совместить несколько этапов - Wav2vec2 + LM для первичного распознавания, трансформер типа T5 для корректировки ошибок и небольшая модель Silero для восстановления пунктуации - https://github.com/bond005/pisets, скрыв эту стадийность в простом, как я надеюсь, пайплайне. Если вдруг окажется полезным, буду рад 😊
Отлично. Спасибо!
Пожалуйста! Теоретически, в настоящий момент поддерживается два языка: можно генерировать субтитры либо на русском, либо на английском. Но поддержка английского пока что качественно не тестировалась.
Интересно, если Vosk добавить в ваш пайплан + большую генеративную модель T5 или GPT3 для корректировки ошибок вместо RNN (сейчас я так понимаю в Vosk она используется) может будет как Whisper генерить красиво? Или не сильно улучшит? Т.е. я так понял движки распознавания можно менять какие угодно?
Вполне возможно. Сейчас я как раз работаю над большой T5, умеющец более качественно корректировать ошибки распознавания и учитывающей научный / айтишный сленг и тому подобное
В настоящиц момент нельзя менять как угодно, но такая фича планируется в будущем
И тут не так все гладко. Попробуй виспером распознать два языка одновременно получится маленькая бяка. Аййаяй так сказать
Обсуждают сегодня