Всем привет! Сижу пробую Vosk, и вижу что мне качество

Question

Всем привет! Сижу пробую Vosk, и вижу что мне качество

распознавания small модели не подходит. При качестве записи голосового в ТГ, записанного в тишине и близко к микрофону часто случаются ошибки, уже не говоря про речь вдали от микрофона пк (но он все же всенаправленный конденсаторный). Вблизи все ок.
Large модель идет получше, но увы, долго грузится на выделенный под него ноут при запуске и занимает столько оперативы, что в него больше ничего не помещается. Понимаю, что не лучший конфиг, но думал для TTS-STT что-то смогу придумать все таки. Конфиг i5-7200U + 8gb ram.
Не подскажете, может есть что-то среднее, может чуть более долгое по распознаванию но чтобы занимало меньше оперативы?

p.s. вблизи к микрофону small модель справляется великолепно. Может стоит обработать сигнал перед распознаванием?

#it #russian #speech-recognition

0

01.06.2023

28 ответов

177 просмотров

М Автор вопроса

Ilya Shigabeev
faster whisper попробуй https://github.com/guillau...

вот кстати только что тоже нашел, спасибо!

0

01.06.2023

М Автор вопроса

Ilya Shigabeev
faster whisper попробуй https://github.com/guillau...

что-то не могу найти информацию, не подскажешь можно ли в него грузить не файл, а поток PCM?

0

01.06.2023

Tarasfrompir V

М
что-то не могу найти информацию, не подскажешь мож...

По идее нет. А не проще ли сделать нормальный микрофонный массив? Или хотя бы камеру от плойки взять?

0

01.06.2023

Tarasfrompir V

М
что-то не могу найти информацию, не подскажешь мож...

Если вам шептать на ухо всякую хрень? Вы сильно поймёте что там говорится?

0

01.06.2023

Tarasfrompir V

Это ж ваше кмк а не модели😭😄😄😄

0

01.06.2023

Tarasfrompir V

А формат то подходящий отправляется?

0

01.06.2023

М Автор вопроса

Tarasfrompir V
Это ж ваше кмк а не модели😭😄😄😄

понятное дело, но как-то ж блин то же api тинькоффа понимает меня на 100% в тех же условиях. Так что мне кажется тут надо искать подходящую модель. Ну, если я осознаю что все плохо и на той маленькой мощности что я выделил ничего не взлетит - выделю свою 3070 для этих дел да возьму себе что-т получше

0

01.06.2023

Tarasfrompir V

Смотри ваше п.с. там и так все понятно что уровня звука не хватает. Может надо какой-то автоуровень прикрутить ?

0

01.06.2023

М Автор вопроса

Tarasfrompir V
А формат то подходящий отправляется?

преобразование в PCM если с ТГ, если с ПК - сразу PCM

0

01.06.2023

Ilya Shigabeev

М
что-то не могу найти информацию, не подскажешь мож...

Возможность принимать PCM есть. Но там размер окна у модели - 30 секунд. Чтобы потоком распознавала нужны приседания. Но на гитхабе что-то есть.

0

01.06.2023

Tarasfrompir V

М
понятное дело, но как-то ж блин то же api тинькофф...

Я хз . Но мои експерименты показывали что простой электректный микрофон с автовыравнием звука дистанция два метра более менее

0

01.06.2023

М Автор вопроса

Tarasfrompir V
Смотри ваше п.с. там и так все понятно что уровня ...

вот, но тут проблема что и уровень шума повысится, банально шум проезжающих машин. Я начал писать после ночных посиделок, и уже в момент написания сообщения дошло что стоит как-то бы звук обработать мб

0

01.06.2023

Tarasfrompir V

Ilya Shigabeev
Возможность принимать PCM есть. Но там размер окна...

Да, ну его такие приседания. Тут же ещё дело во времени отклика...

0

01.06.2023

М Автор вопроса

Tarasfrompir V
Я хз . Но мои експерименты показывали что простой ...

возможно электретник как раз таки не улавливает шумы так, как это делает мой кондер

0

01.06.2023