телефонного разговора. Анализ заключается в распозновании речевой активности.
В начале телефонного звонка создается wav файл и разговор записывается в режиме реального времени. Как парсить wav и распозновать речевую активность я примерно понял и реализовал. Но вот с парсингом в реальном времени возникают трудности. Есть идеи, в какую сторону двигаться? Спасибо
Тебе нужно в прямом эфире понять что фоновый шум сменился полезным сигналом?
не очень понятно, какие трудности. ты что делаешь, соотношение сигнал/шум считаешь в обоих потоках?
Обсуждают сегодня