Большинство говорящих всегда из одной и той же маленькой группы, никто никого не перебивает — короче достаточно чистые разговоры.
Есть ли какое-то решение, которое бы позволило легко подсветить, какой из людей из этой группы когда говорит, а когда говорит кто-то незнакомый, а когда никто не говорит?
Глянь Voicemap на гитхабе, либо просто статьи на тему speaker identification / speaker recognition (их хватает в гугле)
Такое ощущение будто этот же вопрос был год назад
Предобучить на voxceleb2 с triplet loss / arcface, потом прогнать через ваши данные, и сравнивать эмбеддинги
Обсуждают сегодня