Всем привет. Можете, пожалуйста, объяснить, почему сейчас так популярен whisper,

Nikolay
На мой взгляд прекрасно работает, пользователям нр...

Хрень конечно полная, но красиво работает....

0

12.05.2023

A A
А вы попробуйте файнтьюненную под русский язык мод...

А вы попробуйте файнтьюненную под русский язык модель

0

12.05.2023

Nikolay

бред

0

12.05.2023

Роман Ромашин :)

А где взять такую?

0

12.05.2023

Роман Ромашин :)
А где взять такую?

https://alphacephei.com/nsh/2023/01/22/russian-models.html Вот там все ссылки. Whisper adapted large к примеру

0

12.05.2023

Nikolay
бред

Чего бред? 10 гигов в видяхе вот это бред...

0

12.05.2023

Tarasfrompir V
Чего бред? 10 гигов в видяхе вот это бред...

Зато пунктуацию делает)

0

12.05.2023

Ростислав Корст

Tarasfrompir V
Чего бред? 10 гигов в видяхе вот это бред...

Попробуйте faster whisper У меня на тестах он потребляет куда меньше при том же качестве

0

12.05.2023

A A
Зато пунктуацию делает)

Так она и так есть отдельно ставь и все проблемы. Причем получше чем на виспере...

0

12.05.2023

Tarasfrompir V
Так она и так есть отдельно ставь и все проблемы. ...

Думаю тут еще вопрос в том, что на виспере любой человек может сделать приемлемую расшифровку. В других надо стадийность моделей: движок распознавания, если разные языки - разные модели одновременно (а это другие затраты на железо), модели пунктуации и кейса, модель диаризации, совместить все это и т.п.

0

12.05.2023

A A
Думаю тут еще вопрос в том, что на виспере любой ч...

Я попытался совместить несколько этапов - Wav2vec2 + LM для первичного распознавания, трансформер типа T5 для корректировки ошибок и небольшая модель Silero для восстановления пунктуации - https://github.com/bond005/pisets, скрыв эту стадийность в простом, как я надеюсь, пайплайне. Если вдруг окажется полезным, буду рад 😊

0

12.05.2023

Ivan Bondarenko
Я попытался совместить несколько этапов - Wav2vec2...

Отлично. Спасибо!

0

12.05.2023

A A
Отлично. Спасибо!

Пожалуйста! Теоретически, в настоящий момент поддерживается два языка: можно генерировать субтитры либо на русском, либо на английском. Но поддержка английского пока что качественно не тестировалась.

0

12.05.2023

Ivan Bondarenko
Пожалуйста! Теоретически, в настоящий момент подде...

Интересно, если Vosk добавить в ваш пайплан + большую генеративную модель T5 или GPT3 для корректировки ошибок вместо RNN (сейчас я так понимаю в Vosk она используется) может будет как Whisper генерить красиво? Или не сильно улучшит? Т.е. я так понял движки распознавания можно менять какие угодно?

0

12.05.2023

A A
Интересно, если Vosk добавить в ваш пайплан + боль...

Вполне возможно. Сейчас я как раз работаю над большой T5, умеющец более качественно корректировать ошибки распознавания и учитывающей научный / айтишный сленг и тому подобное

0

12.05.2023

A A
Интересно, если Vosk добавить в ваш пайплан + боль...

В настоящиц момент нельзя менять как угодно, но такая фича планируется в будущем

0

12.05.2023