если человек говорит и в фоне у него музыка, то это нужно задетектить. Короче просто музыка либо фоновая музыка это класс 1, остальное - класс 0. И хочется делать что-то вроде VAD но для определения интервалов музыки.
Есть ли уже такие предобученные модельки? Подскажите, пожалуйста, куда смотреть?)
Заранее спасибо!
Добрый день. Для музыки может подойти данная либа) https://github.com/Anjok07/ultimatevocalremovergui
Обсуждают сегодня