Всем здравствуйте! Возникла необходимость распознавать телефонные звонки, попробовал Vosk, довольно неплохо

Question

Всем здравствуйте! Возникла необходимость распознавать телефонные звонки, попробовал Vosk, довольно неплохо

распознает. Но только текст на выходе получается не как диалог собеседников, а в виде непрерывного потока сознания)
Возможно ли использовать Vosk так, чтобы распознаваемый текст делился на собеседников? Или есть другие системы, которые так могут?
Куда копать, подскажите, пожалуйста.

#it #russian #speech-recognition

0

26.10.2023

6 ответов

24 просмотра

neovich Автор вопроса

Roman Bazalevskiy
Писать звонок в два канала аудио, распознавать по ...

Спасибо за идею!

0

26.10.2023

Илья Нездешний

После vosk или любого другого ASR делать диаризацию. c помощью pyannote например.

0

26.10.2023

Vitaliy Lazarev

Roman Bazalevskiy
Писать звонок в два канала аудио, распознавать по ...

Как уже выше написали, есть pyannote, который на последней версии очень хорошо справляется с русской речью. Если интересуют альтернативы, то есть whisper-x, он довольно хорошо справляется, если использовать его как end2end решение, то есть отдать ему и транскрибацию, и диаризацию. Под капотом для диаризации у него тот же pyannote, а на выходе - метки говорящих.

0

26.10.2023

Alpha Cephei Bot

Vitaliy Lazarev
Как уже выше написали, есть pyannote, который на п...

распознавание

0

26.10.2023

Vitaliy Lazarev

Alpha Cephei Bot
распознавание

Сагрил пацана

0

26.10.2023