задача speech to text. Записи звонков по телефону (русский). Я так понимаю надо смотреть в сторону: vosk ,fairsec.
2 задача выделить из диалога двух говорящих абонентов и построить ембединг их голосов, с целью дальнейшего поиска похожих голосов. Что посоветуете?
по голосам очень тяжело разделять людей, лучше эту идею отбросить 😉
для второй задачи wavLM вроде неплох. Ну, насколько это возможно вообще)
Hubert умеет строить эмбеддинг спикера, можно потестировать
а как вот эти господа справляются по вашему? указанные error rates очень приятные https://github.com/pyannote/pyannote-audio
Это для качественных записей для телефона все гораздо хуже
Обсуждают сегодня