говорят два человека
задача из аудио получить текст, но текст должен быть разделен по спикерам
к примеру массив текста - спикер №1
к примеру массив текста - спикер №2
Возьмем аудио (формально)🤷♂️
"Здравствуйте! Звонили?" (спикер №1)
"Да, звонил" (спикер №2)
Получить необходимо следующее:
speaker1: ['здравствуйте', 'звонили']
speaker2: ['да', 'звонил']
Мне нужно тоже самое только для польского
Есть софтина которая делает разбивку по спикерам и выдаёт транскрипт. Я тестировал она работает неплохо. Основное требование нужно писать звук одновременно с двух телефонов. Я не уверен поможет ли это в вашем случае, с аудио файлом. Но как пример где есть довольно качественный speaker diarization думаю подойдёт. Возможно есть в open source алгоритм который используя 2 аудио стрима может вычленять speaker’ов. https://reason8.ai/
Обсуждают сегодня