speaker verification?
зависит от того, какое качество ты хочешь если хочется просто на вавке отличить двух людей, где звук достаточно чистый, то подойдет даже какой-то лстм на ge2e лосе, кажется) это можно использовать как бейзлайн. еще есть attention is all you need for speaker separation, но тут только получится разделить вавку на две, где в каждой будет один человек говорить если нужно загнать в эмбеддинг миллиард людей, сделать ультрамега соту для разделения 500 человек, определять их личности, и они почти одновременно говорят или по голосу снимать деньги с карты, то это очень плохая идея
Обсуждают сегодня