Всем привет. Можете, пожалуйста, объяснить, почему сейчас так популярен whisper,

при том, что в оригинал оригинальной статье wer у него больше, чем у того же заоптимизированного conformed large?

22 ответов

48 просмотров

Видимо как и с GPT надеются через год-полтора получить универсальный инструмент и полностью закрыть вопрос задачи распознавания речи на разных языках. GPT-2 версия была довольно слабой. Много так мог генерировать гораздо более простыми моделями. Потом это все пришло к GPT-4 и уже другие модели стали мало нужны и с ней можно решать любую задачу.

Разрекламировали хорошо. Но у виспера есть интересные свойства тоже, например, поддержка всех языков сразу

Модели разных размеров (для разных юскейсов), много языков, таймстемпы, пунктуация, поддержка аудио любой длительности, форматов и тд.

P- Автор вопроса
Nikolay
Модели разных размеров (для разных юскейсов), мног...

Ну пока что все эти фичи далеки от идеала. Я пробовал делать распознавание на русском языке и результат мягко говоря не очень

P
Ну пока что все эти фичи далеки от идеала. Я пробо...

На мой взгляд прекрасно работает, пользователям нравится. Из интересного могу заметить, что по сравнению с другими подходами песни очень даже хорошо распознает.

Nikolay
На мой взгляд прекрасно работает, пользователям нр...

Хрень конечно полная, но красиво работает....

А вы попробуйте файнтьюненную под русский язык модель

бред

Роман Ромашин :)
А где взять такую?

https://alphacephei.com/nsh/2023/01/22/russian-models.html Вот там все ссылки. Whisper adapted large к примеру

Nikolay
бред

Чего бред? 10 гигов в видяхе вот это бред...

Tarasfrompir V
Чего бред? 10 гигов в видяхе вот это бред...

Попробуйте faster whisper У меня на тестах он потребляет куда меньше при том же качестве

A A
Зато пунктуацию делает)

Так она и так есть отдельно ставь и все проблемы. Причем получше чем на виспере...

Tarasfrompir V
Так она и так есть отдельно ставь и все проблемы. ...

Думаю тут еще вопрос в том, что на виспере любой человек может сделать приемлемую расшифровку. В других надо стадийность моделей: движок распознавания, если разные языки - разные модели одновременно (а это другие затраты на железо), модели пунктуации и кейса, модель диаризации, совместить все это и т.п.

A A
Думаю тут еще вопрос в том, что на виспере любой ч...

Я попытался совместить несколько этапов - Wav2vec2 + LM для первичного распознавания, трансформер типа T5 для корректировки ошибок и небольшая модель Silero для восстановления пунктуации - https://github.com/bond005/pisets, скрыв эту стадийность в простом, как я надеюсь, пайплайне. Если вдруг окажется полезным, буду рад 😊

A A
Отлично. Спасибо!

Пожалуйста! Теоретически, в настоящий момент поддерживается два языка: можно генерировать субтитры либо на русском, либо на английском. Но поддержка английского пока что качественно не тестировалась.

Ivan Bondarenko
Пожалуйста! Теоретически, в настоящий момент подде...

Интересно, если Vosk добавить в ваш пайплан + большую генеративную модель T5 или GPT3 для корректировки ошибок вместо RNN (сейчас я так понимаю в Vosk она используется) может будет как Whisper генерить красиво? Или не сильно улучшит? Т.е. я так понял движки распознавания можно менять какие угодно?

A A
Интересно, если Vosk добавить в ваш пайплан + боль...

Вполне возможно. Сейчас я как раз работаю над большой T5, умеющец более качественно корректировать ошибки распознавания и учитывающей научный / айтишный сленг и тому подобное

A A
Интересно, если Vosk добавить в ваш пайплан + боль...

В настоящиц момент нельзя менять как угодно, но такая фича планируется в будущем

A A
Думаю тут еще вопрос в том, что на виспере любой ч...

И тут не так все гладко. Попробуй виспером распознать два языка одновременно получится маленькая бяка. Аййаяй так сказать

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта