идеале перевести речь человека на другой язык и автоматически создать субтитры для нее, при этом не совсем понятно как расставить паузы/тайминги в субтитрах (грубо говоря чтобы понимать когда субтитры показывать), как можно к такой задаче подойти с помощью stt/nlp моделей?
whisper умеет транскрибировать с таймстемпами, можно в сторону него посмотреть
недавно такая штука зарелизилась облегчённая с тем же функционалом вроде https://github.com/m-bain/whisperX
о, там мою модель юзают) https://github.com/m-bain/whisperX/blob/main/whisperx/alignment.py#L48 (если пользуются , то надо бы там обновить модельки у себя ибо с тех пор данные какие-то новые сделал)
Обсуждают сегодня