А что вы хотите получить на выходе? все 100% аудио

Question

Распознавание и синтез речи

Mike

А что вы хотите получить на выходе? все 100% аудио

содержат эмоции.

#it #russian #speech-recognition

0

20.03.2022

6 ответов

29 просмотров

Алексей Гусев

Ilya Abramchuk
хотел оценить записи разговоров на нейтральные (об...

Возможно вам подойдет просто кластеризация на два класса по MFB - если вы ожидаете в своих записях крики и эмоции - там просто будут большие значения энергий, мб на части фильтрбанков. Если хотите прям сетки, можно скажем https://github.com/s3prl/s3prl/tree/master/s3prl/downstream/emotion

0

20.03.2022

Ilya Abramchuk

Алексей Гусев
Возможно вам подойдет просто кластеризация на два ...

я хочу просто чтобы работало) кластеризация по mfb это какой-то вид мел коэффициентов?

0

20.03.2022

Алексей Гусев

Ilya Abramchuk
я хочу просто чтобы работало) кластеризация по mfb...

mfb - mel filter bank

0

20.03.2022

Ilya Abramchuk

Алексей Гусев
mfb - mel filter bank

спасибо, я правильно понял, что вы предлагаете перевести аудио в какой-либо вид мел представлений и там просто отделить по аудио с высокими значениями от аудио с низкими значениями?

0

20.03.2022

Алексей Гусев

Ilya Abramchuk
спасибо, я правильно понял, что вы предлагаете пер...

пройтись VAD, по речи построить MFB и по ним попытаться найти громких эмоциональных людей. Разумеется останутся еще тихие эмоциональные люди и громкие спокойные. Еще разумно предположить, что данных с эмоциональной речью будет сильно меньше, чем с обычной - нужно думать, что с этим делать

0

20.03.2022

Ilya Abramchuk · Accepted Answer

Ilya Abramchuk

хотел оценить записи разговоров на нейтральные (обычные) и возбужденные (там где много эмоций ор крики и на подобии)

0

20.03.2022

26 похожих чатов

А что вы хотите получить на выходе? все 100% аудио

6 ответов

Похожие вопросы