отфильтровать плохие. Пока планирую сделать следующее:
1. Денойзер(хвалят фейсбучный)
2. Выравнивание громкости
3. Распознать посимвольно с таймстампом и отбраковать те предложения, где какие то звуки сильно выделяются по продолжительности
Ещё какие варианты есть?
с плохим wer можно отфильтровать - если есть мусор в аудио, он найдется
1. Денойсинг до распознавания часто ухудшает распознование (иногда в разы) 2. Воск, к примеру, дает таймстемпы не посимвольно а по словам. И выдает сразу оценку вероятости правильного распознавания слова, то есть для отбраковки идея из п.2 лишняя
Я делаю сперва распознование посимвольно wav2vec и только потом чищу звук
Обсуждают сегодня