до распознавания проскорить аудио такой моделью и не делать распознавание в случае, если качество речи в аудиозаписи не очень хорошее.
знаю, что whisper возвращает декод речи и можно получить no_speech_prob, шумность
Воск к каждому слову отдает оценку вероятности, но среднее или квадратичное среднее этих оценок заметно ниже 1.0 не очень понятно как оценивать, начиная со скольки это уже мусор. Может по -цати записям сможете оценить лимит минимальный. Единицу он может влепить и не угадав слово, и наоборот, выставить че то типа 0.8-0.6 отдельным словам на идеальной записи
Обсуждают сегодня