Всем привет! Сижу пробую Vosk, и вижу что мне качество

распознавания small модели не подходит. При качестве записи голосового в ТГ, записанного в тишине и близко к микрофону часто случаются ошибки, уже не говоря про речь вдали от микрофона пк (но он все же всенаправленный конденсаторный). Вблизи все ок.
Large модель идет получше, но увы, долго грузится на выделенный под него ноут при запуске и занимает столько оперативы, что в него больше ничего не помещается. Понимаю, что не лучший конфиг, но думал для TTS-STT что-то смогу придумать все таки. Конфиг i5-7200U + 8gb ram.
Не подскажете, может есть что-то среднее, может чуть более долгое по распознаванию но чтобы занимало меньше оперативы?

p.s. вблизи к микрофону small модель справляется великолепно. Может стоит обработать сигнал перед распознаванием?

28 ответов

122 просмотра

faster whisper попробуй https://github.com/guillaumekln/faster-whisper

М- Автор вопроса
Ilya Shigabeev
faster whisper попробуй https://github.com/guillau...

вот кстати только что тоже нашел, спасибо!

М- Автор вопроса
Ilya Shigabeev
faster whisper попробуй https://github.com/guillau...

что-то не могу найти информацию, не подскажешь можно ли в него грузить не файл, а поток PCM?

М
что-то не могу найти информацию, не подскажешь мож...

По идее нет. А не проще ли сделать нормальный микрофонный массив? Или хотя бы камеру от плойки взять?

М
что-то не могу найти информацию, не подскажешь мож...

Если вам шептать на ухо всякую хрень? Вы сильно поймёте что там говорится?

Это ж ваше кмк а не модели😭😄😄😄

А формат то подходящий отправляется?

М- Автор вопроса
Tarasfrompir V
Это ж ваше кмк а не модели😭😄😄😄

понятное дело, но как-то ж блин то же api тинькоффа понимает меня на 100% в тех же условиях. Так что мне кажется тут надо искать подходящую модель. Ну, если я осознаю что все плохо и на той маленькой мощности что я выделил ничего не взлетит - выделю свою 3070 для этих дел да возьму себе что-т получше

Смотри ваше п.с. там и так все понятно что уровня звука не хватает. Может надо какой-то автоуровень прикрутить ?

М- Автор вопроса
Tarasfrompir V
А формат то подходящий отправляется?

преобразование в PCM если с ТГ, если с ПК - сразу PCM

М
что-то не могу найти информацию, не подскажешь мож...

Возможность принимать PCM есть. Но там размер окна у модели - 30 секунд. Чтобы потоком распознавала нужны приседания. Но на гитхабе что-то есть.

М
понятное дело, но как-то ж блин то же api тинькофф...

Я хз . Но мои експерименты показывали что простой электректный микрофон с автовыравнием звука дистанция два метра более менее

М- Автор вопроса
Tarasfrompir V
Смотри ваше п.с. там и так все понятно что уровня ...

вот, но тут проблема что и уровень шума повысится, банально шум проезжающих машин. Я начал писать после ночных посиделок, и уже в момент написания сообщения дошло что стоит как-то бы звук обработать мб

Ilya Shigabeev
Возможность принимать PCM есть. Но там размер окна...

Да, ну его такие приседания. Тут же ещё дело во времени отклика...

М- Автор вопроса
Tarasfrompir V
Я хз . Но мои експерименты показывали что простой ...

возможно электретник как раз таки не улавливает шумы так, как это делает мой кондер

М- Автор вопроса
М- Автор вопроса
Ilya Shigabeev
Возможность принимать PCM есть. Но там размер окна...

т.е. меньше чем 30сек надо дозаполнять тишиной?

М
вот, но тут проблема что и уровень шума повысится,...

В любом случае надо говорить громче фона. В любом случае я бы делал предоббработку . Но тогда мощностя надо увеличивать

М- Автор вопроса
Tarasfrompir V
В любом случае надо говорить громче фона. В любом...

тогда мне кажется стоит заморочиться над микрофонным массивом, но тут я не изучал как и что надо с ним делать :(

М
тогда мне кажется стоит заморочиться над микрофонн...

Говорят что от пс 3 камера имеет массив из 4 микрофонов. Стоит копейки. Поройся

М- Автор вопроса
М
вот оно как, благодарю

Блин выше ж писал. Читайте внимательнее...

М- Автор вопроса
Tarasfrompir V
Блин выше ж писал. Читайте внимательнее...

ну "камеру от плойки" я не так понял) кто ж знал что такое используется, и в камере еще и микрофоны есть)

М
вот оно как, благодарю

Но там с драйверами надо поиграться. Чтобы выбрать удачные

М
ну "камеру от плойки" я не так понял) кто ж знал ч...

На них много голосовых ассистентов есть в природе самодельных

М
что-то не могу найти информацию, не подскажешь мож...

Нет, надо резать на макс.30 сек.куски и скармливать по одному

М- Автор вопроса
Сергей П.
Нет, надо резать на макс.30 сек.куски и скармливат...

спасибо, просто тогда это не имеет смысла, т.к. куски всегда будут <30 сек

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта