содержат эмоции.
хотел оценить записи разговоров на нейтральные (обычные) и возбужденные (там где много эмоций ор крики и на подобии)
Возможно вам подойдет просто кластеризация на два класса по MFB - если вы ожидаете в своих записях крики и эмоции - там просто будут большие значения энергий, мб на части фильтрбанков. Если хотите прям сетки, можно скажем https://github.com/s3prl/s3prl/tree/master/s3prl/downstream/emotion
я хочу просто чтобы работало) кластеризация по mfb это какой-то вид мел коэффициентов?
mfb - mel filter bank
спасибо, я правильно понял, что вы предлагаете перевести аудио в какой-либо вид мел представлений и там просто отделить по аудио с высокими значениями от аудио с низкими значениями?
пройтись VAD, по речи построить MFB и по ним попытаться найти громких эмоциональных людей. Разумеется останутся еще тихие эмоциональные люди и громкие спокойные. Еще разумно предположить, что данных с эмоциональной речью будет сильно меньше, чем с обычной - нужно думать, что с этим делать
Обсуждают сегодня