ai?
https://github.com/facebookresearch/denoiser
https://github.com/Rikorose/DeepFilterNet
https://github.com/NVIDIA/CleanUNet и много ещё разных
спасибо большое друг!
Если это то, о чем я думаю, то это не просто денойсер, это штука для улучшения качества речи. Там происходит как бы превращение речи в речь, но рассчитана эта штука на английскую речь, поэтому восстановление русской речи происходит как бы с акцентом. Мне бы тоже хотелось либо найти бесплатную уже pretrainned модель, либо как-то обучить свою, но я не понимаю, как к такой задаче подойти...
1. Плохой звук — это не смесь хорошего звука с фоновым шумом. Не готов сейчас дать примеры... Послушайте, как звучат записи на старых магнитных лентах.. Там не шум, там возникают искажения звука... Как такое сэмитировать? 2. Я пробовал сделать именно так, как вы предложили — на входе сети плохой звук, на выходе — хороший. Я разбиваю исходный сигнал на отрезки по 0.01 секунды (441 отсчет). Пропускаю через сеть и результаты склеиваю. В местах склеек возникают, иногда, щелчки, а иногда последовательность щелчков сливается в неприрывное "жужжание". Что я делаю нетак?
может попробовать накачать какие то звуки и добавлять их к данным ?
Щелчки могут возникать, если между отрезками большая разница в амплитуде
Да, я это понимаю. Я не понимаю, как этого избежать... Более того, я пробовал обрабатывать и просто сигнал (кусочек wav файла), и преобразованный сигнал после fft преобразования. Во втором случае возникает еще и разница в угле комплексного числа...
Мне кажется, тут надо не смешивать сигналы, а разными способами искажать исходный сигнал: урезать или задирать частоты, добавлять ревербирацию, дисторшен... Ну и просто фоновый белый шум или какие-нибудь потрескивания...
ну я не думаю что такое может произойти в жизни,в жизни чаще шумы всякие
Audiomentations можно попробовать, там много всяких искажений есть
Обсуждают сегодня