Всем привет. Можете, пожалуйста, объяснить, почему сейчас так популярен whisper,

при том, что в оригинал оригинальной статье wer у него больше, чем у того же заоптимизированного conformed large?

22 ответов

14 просмотров

Видимо как и с GPT надеются через год-полтора получить универсальный инструмент и полностью закрыть вопрос задачи распознавания речи на разных языках. GPT-2 версия была довольно слабой. Много так мог генерировать гораздо более простыми моделями. Потом это все пришло к GPT-4 и уже другие модели стали мало нужны и с ней можно решать любую задачу.

Разрекламировали хорошо. Но у виспера есть интересные свойства тоже, например, поддержка всех языков сразу

Модели разных размеров (для разных юскейсов), много языков, таймстемпы, пунктуация, поддержка аудио любой длительности, форматов и тд.

P- Автор вопроса
Nikolay
Модели разных размеров (для разных юскейсов), мног...

Ну пока что все эти фичи далеки от идеала. Я пробовал делать распознавание на русском языке и результат мягко говоря не очень

P
Ну пока что все эти фичи далеки от идеала. Я пробо...

На мой взгляд прекрасно работает, пользователям нравится. Из интересного могу заметить, что по сравнению с другими подходами песни очень даже хорошо распознает.

Nikolay
На мой взгляд прекрасно работает, пользователям нр...

Хрень конечно полная, но красиво работает....

А вы попробуйте файнтьюненную под русский язык модель

бред

Роман Ромашин :)
А где взять такую?

https://alphacephei.com/nsh/2023/01/22/russian-models.html Вот там все ссылки. Whisper adapted large к примеру

Nikolay
бред

Чего бред? 10 гигов в видяхе вот это бред...

Tarasfrompir V
Чего бред? 10 гигов в видяхе вот это бред...

Попробуйте faster whisper У меня на тестах он потребляет куда меньше при том же качестве

A A
Зато пунктуацию делает)

Так она и так есть отдельно ставь и все проблемы. Причем получше чем на виспере...

Tarasfrompir V
Так она и так есть отдельно ставь и все проблемы. ...

Думаю тут еще вопрос в том, что на виспере любой человек может сделать приемлемую расшифровку. В других надо стадийность моделей: движок распознавания, если разные языки - разные модели одновременно (а это другие затраты на железо), модели пунктуации и кейса, модель диаризации, совместить все это и т.п.

A A
Думаю тут еще вопрос в том, что на виспере любой ч...

Я попытался совместить несколько этапов - Wav2vec2 + LM для первичного распознавания, трансформер типа T5 для корректировки ошибок и небольшая модель Silero для восстановления пунктуации - https://github.com/bond005/pisets, скрыв эту стадийность в простом, как я надеюсь, пайплайне. Если вдруг окажется полезным, буду рад 😊

A A
Отлично. Спасибо!

Пожалуйста! Теоретически, в настоящий момент поддерживается два языка: можно генерировать субтитры либо на русском, либо на английском. Но поддержка английского пока что качественно не тестировалась.

Ivan Bondarenko
Пожалуйста! Теоретически, в настоящий момент подде...

Интересно, если Vosk добавить в ваш пайплан + большую генеративную модель T5 или GPT3 для корректировки ошибок вместо RNN (сейчас я так понимаю в Vosk она используется) может будет как Whisper генерить красиво? Или не сильно улучшит? Т.е. я так понял движки распознавания можно менять какие угодно?

A A
Интересно, если Vosk добавить в ваш пайплан + боль...

Вполне возможно. Сейчас я как раз работаю над большой T5, умеющец более качественно корректировать ошибки распознавания и учитывающей научный / айтишный сленг и тому подобное

A A
Интересно, если Vosk добавить в ваш пайплан + боль...

В настоящиц момент нельзя менять как угодно, но такая фича планируется в будущем

A A
Думаю тут еще вопрос в том, что на виспере любой ч...

И тут не так все гладко. Попробуй виспером распознать два языка одновременно получится маленькая бяка. Аййаяй так сказать

Похожие вопросы

Обсуждают сегодня

Так а кто может спарсить всех участников чата? Идишники
Magic
18
да пофиг на капчу зашел в чат и молчишь при этом ты нонейм? пошел вон
Magic
17
Как удалить health check в Consul? Казалось бы, это должно быть не сложно, но я не могу найти в документации ничего про это, только про добавление service с health check "в н...
Roman
2
Гайз, а как отправлять с вейпора пуши на андроид? ) Меня вот осенило )))
Serg
11
А как можно понять что пользовательская программа завершилась если она не вызывала сисколл exit?
One
4
Всем доброго дня. Возвращаясь к вопросу о варнингах: есть ли способ заставить компилятор ругаться на вызов функций языка, которые уже не существуют? Например, я могу спокойно ...
Δημήτηρ
2
Привет, кто может сделать юзербота с апи? Задачи: - создавать группы - создавать каналы - задавать для созданных каналов аватарку или эмоджи, имя группы - добавлять в группы...
Lencore
13
Как думаете, будут макбуки на WWDC?
Dmytro
6
Все еще ржу с mov ax, 0xA000 ; graphic segment ?? mov gs, ax
Berkus Decker
4
Нужно магазин с тильды на опен кат перенести Есть кто умеет? В лс
Magic
8
Карта сайта