Дешевле и проще отправлять аудио сразу в виспер, но некоторые файлы лучше предварительно очистить от шума. Как вариант вижу часть аудио транскрибировать, оценивать текст llmкой и по рещультатам уже принимать решение. Есть ли какое-нибудь более изящное решение?
signal to noise ratio, но её бы посчитать на данных сперва ваших, чтобы понять какое будет распределение
Олег, благодарю за советы!
Обсуждают сегодня