распознавания small модели не подходит. При качестве записи голосового в ТГ, записанного в тишине и близко к микрофону часто случаются ошибки, уже не говоря про речь вдали от микрофона пк (но он все же всенаправленный конденсаторный). Вблизи все ок.
Large модель идет получше, но увы, долго грузится на выделенный под него ноут при запуске и занимает столько оперативы, что в него больше ничего не помещается. Понимаю, что не лучший конфиг, но думал для TTS-STT что-то смогу придумать все таки. Конфиг i5-7200U + 8gb ram.
Не подскажете, может есть что-то среднее, может чуть более долгое по распознаванию но чтобы занимало меньше оперативы?
p.s. вблизи к микрофону small модель справляется великолепно. Может стоит обработать сигнал перед распознаванием?
faster whisper попробуй https://github.com/guillaumekln/faster-whisper
вот кстати только что тоже нашел, спасибо!
что-то не могу найти информацию, не подскажешь можно ли в него грузить не файл, а поток PCM?
По идее нет. А не проще ли сделать нормальный микрофонный массив? Или хотя бы камеру от плойки взять?
Если вам шептать на ухо всякую хрень? Вы сильно поймёте что там говорится?
Это ж ваше кмк а не модели😭😄😄😄
А формат то подходящий отправляется?
понятное дело, но как-то ж блин то же api тинькоффа понимает меня на 100% в тех же условиях. Так что мне кажется тут надо искать подходящую модель. Ну, если я осознаю что все плохо и на той маленькой мощности что я выделил ничего не взлетит - выделю свою 3070 для этих дел да возьму себе что-т получше
Смотри ваше п.с. там и так все понятно что уровня звука не хватает. Может надо какой-то автоуровень прикрутить ?
преобразование в PCM если с ТГ, если с ПК - сразу PCM
Возможность принимать PCM есть. Но там размер окна у модели - 30 секунд. Чтобы потоком распознавала нужны приседания. Но на гитхабе что-то есть.
Я хз . Но мои експерименты показывали что простой электректный микрофон с автовыравнием звука дистанция два метра более менее
вот, но тут проблема что и уровень шума повысится, банально шум проезжающих машин. Я начал писать после ночных посиделок, и уже в момент написания сообщения дошло что стоит как-то бы звук обработать мб
Да, ну его такие приседания. Тут же ещё дело во времени отклика...
возможно электретник как раз таки не улавливает шумы так, как это делает мой кондер
это можно и потерпеть в моем случае
т.е. меньше чем 30сек надо дозаполнять тишиной?
В любом случае надо говорить громче фона. В любом случае я бы делал предоббработку . Но тогда мощностя надо увеличивать
да, она паддинг делает тишиной
тогда мне кажется стоит заморочиться над микрофонным массивом, но тут я не изучал как и что надо с ним делать :(
Говорят что от пс 3 камера имеет массив из 4 микрофонов. Стоит копейки. Поройся
вот оно как, благодарю
Блин выше ж писал. Читайте внимательнее...
ну "камеру от плойки" я не так понял) кто ж знал что такое используется, и в камере еще и микрофоны есть)
Но там с драйверами надо поиграться. Чтобы выбрать удачные
На них много голосовых ассистентов есть в природе самодельных
Нет, надо резать на макс.30 сек.куски и скармливать по одному
спасибо, просто тогда это не имеет смысла, т.к. куски всегда будут <30 сек
Обсуждают сегодня