оставить чисто моменты где человек говорит.
Псевдоструктура:
1. Вытащить аудиодорожку из видео
2. Прогнать через vad (тот же немо, который даёт таймстомпы)
3. Обрезать аудио, прогнать через stt
4. По сохранённым таймкодам обрезать видео
В правильную от сторону мыслю? Если есть советы/корректировки буду рад услышать
можно после вада резать сразу 😉
Обсуждают сегодня