распознает. Но только текст на выходе получается не как диалог собеседников, а в виде непрерывного потока сознания)
Возможно ли использовать Vosk так, чтобы распознаваемый текст делился на собеседников? Или есть другие системы, которые так могут?
Куда копать, подскажите, пожалуйста.
Писать звонок в два канала аудио, распознавать по отдельность, потом сводить вместе по временным меткам.
После vosk или любого другого ASR делать диаризацию. c помощью pyannote например.
Как уже выше написали, есть pyannote, который на последней версии очень хорошо справляется с русской речью. Если интересуют альтернативы, то есть whisper-x, он довольно хорошо справляется, если использовать его как end2end решение, то есть отдать ему и транскрибацию, и диаризацию. Под капотом для диаризации у него тот же pyannote, а на выходе - метки говорящих.
Сагрил пацана
Обсуждают сегодня