Коллеги, кто нибудь openai whisper локально устанавливал, юзал?

19 ответов

53 просмотра

Да, а что?

Артём-Жуков Автор вопроса
datascience xc
Да, а что?

как себя ведет с русским и на сколько быстро работает?

Артём Жуков
как себя ведет с русским и на сколько быстро работ...

Ну мелкие русский ужасно распознают. Дообучал whisper medium и становилось сносно

Коллеги, а чем VOSK не устраивает для транскрибации?

Артём-Жуков Автор вопроса
Roma Romashkin
Коллеги, а чем VOSK не устраивает для транскрибаци...

есть тут одна задачка по распознаванию аудиокапчи, и там быстро проговариваются символы и цифры, vosk не справляется

Артём Жуков
есть тут одна задачка по распознаванию аудиокапчи,...

Я как-то проводил тест проприетарных решений (3 года назад), от azure был самый качественный результат, около 90%

Артём Жуков
есть тут одна задачка по распознаванию аудиокапчи,...

Думаю, действительно есть резон дотюнить именно на образцах капчи, раз под нее.

Артём Жуков
как себя ведет с русским и на сколько быстро работ...

Из коробки работает large нормально. Но мы тоже модель поменьше дообучаем на своих данных. С ним проблема в зацикливаниях фраз. До конца с ней не разобрались

Владимир Кочетков
Из коробки работает large нормально. Но мы тоже мо...

Беда трансформеров. Вероятно это даже можно отловить постобработкой через иф елсе и регекспы и вырезать из результата как то

Господь благословил левый паддинг и repetition penalty. У меня они сняли порядка 90% кейсов с зацикливанием. Остались бесючие кейсы с "silence", когда тишину начинает распознавать зацикленным текстом, и когда вдохи/выдохи с присвистом распознаёт как "you"

V Youma
Господь благословил левый паддинг и repetition pen...

Господь благословил левый паддинг и repetition penalty. просто пустую тишину? какой длительности? Остались бесючие кейсы с "silence", когда тишину начинает распознавать зацикленным текстом тут вроде как раз через VAD можно тишину уменьшить до определенного предела. и это помгает и когда вдохи/выдохи с присвистом распознаёт как "you" то же через VAD найти участки с речью. и может отфильтровать как раз эти вдохи

Aigiz K
Господь благословил левый паддинг и repetition pen...

VAD - это слишком дорого и медленно. Для разовой акции пойдёт, а для 20000 часов аудио в сутки это сразу +35-40% костов на вычислительные мощности

Для такой нагрузки может есть смысл искать другие модели? Или там у вас мультиланг У меня вав2век быстрее намного. Для больших его использую. Но у меня явно не такие объемы

Aigiz K
Для такой нагрузки может есть смысл искать другие...

По производительности w2v действительно выигрывает при сопоставимом количестве параметров, но выигрыш этот нивелируется за счёт необходимости использовать т5-small в качестве sentence separator'a и punctuator'a. Когда соберётся достаточное количество чистых данных, попробую обучить w2v сразу с пунктуацией, как это сделано в MMS-1b

V Youma
VAD - это слишком дорого и медленно. Для разовой а...

Это что у вас за vad такой прожорливый, позвольте полюбопытствовать?

vpodgorsky
Это что у вас за vad такой прожорливый, позвольте ...

Да все, что пробовал. По своей сути они представляли небольшие модельки, которым нужно было скармливать аудио, порезанное на мелкие куски, после чего модельки с некоторой уверенностью говорили, есть в конкретном куске аудио голос, либо нет. Подобный инференс занимал много времени, и единственный способ его ускорить было распараллеливание, что в свою очередь отжирало ресурсы. В итоге я плюнул и реализовал топорный метод: -перевожу данные аудиосигнала в относительную амплитуду -куски, где амплитуда не поднимается выше -28 Дб, вырезаю -оставшееся отправляю в ASR на распознавание. На моих данных (звонки-разговоры) работает быстро и практически безотказно. Рехается только на кейсах, когда шум на записи по уровню громкости сопоставим с голосом говорящего (например, человек звонит из вагона метро). Ну и бывает, проскакивает фрагмент с резким звуком (например, человек дёрнул микрофон или клацнул рядом с ним)

Похожие вопросы

Обсуждают сегодня

Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Коллеги, я тут для личных нужд пошел ставить MQTT сервер, пощупал mosquitto, но ужаснулся отсутствию такой банальности, как HTTP API для посмотреть список топиков. А тут что,...
Maksim Lapshin
14
У меня задача: написать брокер сообщений. Очереди и потребители. Очереди поддерживают приоритеты. Очередь отдает сообщения, только обработчикам с соответствующими характеристи...
Aleksandr Filippov
2
Решил тут попробовать embassy на bluepill. Все установил, собрал blink и успешно залил с помощью St link 2 китайского. Но после этого чип шиться перестал. На форумах прочел, ч...
Lukutin R2AJP
6
Немного оффтопа: а кто на чем сидит для осдева в плане ide/редактора? Последнее время сидел на vscode, но я его прям не могу нормально воспринимать, перешел на сlion, но меня...
Evg Resh
29
Вопрос на перед, на следующую пятницу. Сколько строк кода можно вешать на одного программиста, понятно что если проект хорошо написан то можно и миллион. Но есть же где то пре...
AlekseyK Kluchnikov
31
Карта сайта