Whisper? Есть аудио в среднем 3 минуты. Можно ли подавать на обучение целое аудио или же их нужно разбить на более мелкие?
У Whisper окно 30 секунд. Лучше нарезать самим, чтобы слова и прочее не попадали на границу отсечения. В зависимости от того, где и как обучаете, возможно, в пайплайне уже есть нарезка через VAD (детектор речи)
Хорошо, спасибо👍
Обсуждают сегодня