с тайм кодами и я использую для этого Whisper, но там почему то адекватно работает только medium модель и она относительно медленная.
Есть ли похожие на whisper модели, которые могут распознавать русскую речь с тайм кодами? Тайм коды я использовую для того чтобы поставить новую озвучку на другом языке в нужные места, ведь спикер может делать паузы
таймкоды берете этим репозиторием? https://github.com/linto-ai/whisper-timestamped
FasterWhisper и зафорсить язык в RU
нет, от сюда https://github.com/openai/whisper
А как там получать таймкоды? Он же из коробки их не умеет вроде
а как ему русский распознавать если он не умеет?
Whisper обучался на большом количестве языков и русский один из 6 основных
я через командную строку, вроде умеет
Есть wav2vec, но он мягко говоря плохой по качеству
это смотря как его обучить)) для таймкодов подойдет на отлично
Можете попробовать https://github.com/bond005/pisets
Обсуждают сегодня