умеем (делаем обнуления поочередно). это ок.
транскрибировать каждую дорожку умеем. это ок.
вопрос:
знаете ли готовые решения/сети/библиотеки,
чтобы выдавать текст сразу с делением на паузы и таймингом?
whisper?
увидел, спасибо )
а где там разделение на паузы и тайминг? сходу в доках нет описания по этим пунктам
я не настоящий сварщик, но как минимум в тайминг оно умеет вроде https://github.com/openai/whisper/discussions/98
Whisper хорошо транскрибирует, в том числе с таймингом (если брать не модель с HF, а из оригинального реоп OpenAI, где есть опция word_timestamps). Но в паузы он не умеет, кроме случаев, когда они разделяют "сегменты" (это понятие из лексикона Whisper, и там эти сегменты примерно совпадают с предложениями обычно). Если паузы нужны, можно по этому тьюториалу сделать force alignment букв с фреймами аудио любой CTC-based моделью (если нужна мультиязычная, можно взять MMS). https://pytorch.org/audio/stable/tutorials/forced_alignment_tutorial.html. И после такого выравнивания можно считать отрезок речи между первой и последней буквами в слове - речью, а остальное - паузой.
увидел, спасибо )
Обсуждают сегодня