Коллеги, кто нибудь openai whisper локально устанавливал, юзал?

19 ответов

79 просмотров

Да, а что?

Артём-Жуков Автор вопроса
datascience xc
Да, а что?

как себя ведет с русским и на сколько быстро работает?

Артём Жуков
как себя ведет с русским и на сколько быстро работ...

Ну мелкие русский ужасно распознают. Дообучал whisper medium и становилось сносно

Коллеги, а чем VOSK не устраивает для транскрибации?

Артём-Жуков Автор вопроса
Roma Romashkin
Коллеги, а чем VOSK не устраивает для транскрибаци...

есть тут одна задачка по распознаванию аудиокапчи, и там быстро проговариваются символы и цифры, vosk не справляется

Артём Жуков
есть тут одна задачка по распознаванию аудиокапчи,...

Я как-то проводил тест проприетарных решений (3 года назад), от azure был самый качественный результат, около 90%

Артём Жуков
есть тут одна задачка по распознаванию аудиокапчи,...

Думаю, действительно есть резон дотюнить именно на образцах капчи, раз под нее.

Артём Жуков
как себя ведет с русским и на сколько быстро работ...

Из коробки работает large нормально. Но мы тоже модель поменьше дообучаем на своих данных. С ним проблема в зацикливаниях фраз. До конца с ней не разобрались

Владимир Кочетков
Из коробки работает large нормально. Но мы тоже мо...

Беда трансформеров. Вероятно это даже можно отловить постобработкой через иф елсе и регекспы и вырезать из результата как то

Господь благословил левый паддинг и repetition penalty. У меня они сняли порядка 90% кейсов с зацикливанием. Остались бесючие кейсы с "silence", когда тишину начинает распознавать зацикленным текстом, и когда вдохи/выдохи с присвистом распознаёт как "you"

V Youma
Господь благословил левый паддинг и repetition pen...

Господь благословил левый паддинг и repetition penalty. просто пустую тишину? какой длительности? Остались бесючие кейсы с "silence", когда тишину начинает распознавать зацикленным текстом тут вроде как раз через VAD можно тишину уменьшить до определенного предела. и это помгает и когда вдохи/выдохи с присвистом распознаёт как "you" то же через VAD найти участки с речью. и может отфильтровать как раз эти вдохи

Aigiz K
Господь благословил левый паддинг и repetition pen...

VAD - это слишком дорого и медленно. Для разовой акции пойдёт, а для 20000 часов аудио в сутки это сразу +35-40% костов на вычислительные мощности

Для такой нагрузки может есть смысл искать другие модели? Или там у вас мультиланг У меня вав2век быстрее намного. Для больших его использую. Но у меня явно не такие объемы

Aigiz K
Для такой нагрузки может есть смысл искать другие...

По производительности w2v действительно выигрывает при сопоставимом количестве параметров, но выигрыш этот нивелируется за счёт необходимости использовать т5-small в качестве sentence separator'a и punctuator'a. Когда соберётся достаточное количество чистых данных, попробую обучить w2v сразу с пунктуацией, как это сделано в MMS-1b

V Youma
VAD - это слишком дорого и медленно. Для разовой а...

Это что у вас за vad такой прожорливый, позвольте полюбопытствовать?

vpodgorsky
Это что у вас за vad такой прожорливый, позвольте ...

Да все, что пробовал. По своей сути они представляли небольшие модельки, которым нужно было скармливать аудио, порезанное на мелкие куски, после чего модельки с некоторой уверенностью говорили, есть в конкретном куске аудио голос, либо нет. Подобный инференс занимал много времени, и единственный способ его ускорить было распараллеливание, что в свою очередь отжирало ресурсы. В итоге я плюнул и реализовал топорный метод: -перевожу данные аудиосигнала в относительную амплитуду -куски, где амплитуда не поднимается выше -28 Дб, вырезаю -оставшееся отправляю в ASR на распознавание. На моих данных (звонки-разговоры) работает быстро и практически безотказно. Рехается только на кейсах, когда шум на записи по уровню громкости сопоставим с голосом говорящего (например, человек звонит из вагона метро). Ну и бывает, проскакивает фрагмент с резким звуком (например, человек дёрнул микрофон или клацнул рядом с ним)

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта