канальный звук к одному каналу для нужд распознавания речи? Допустимо ли например взять один канал, если их два, или нужно усреднять их как то?
В подавляющем большинстве случаев берут просто один канал. Но если ты что-то знаешь о микрофоне и в одном из них тишина, когда в другом голос - то надо как-то дополнительно это обрабатывать. Например, в датасете switchboard записаны телефонные разговоры и в разных каналах там разные спикеры.
"Тупое" усреднение двух стерео каналов может сделать звук неразборчивым, там будут суммироваться звуки с разным временем испускания если источник не по центру, лучше для распознавания взять один канал, кроме случая когда в них реально все разное.
Спасибо большое, понял!
Обсуждают сегодня