идеале перевести речь человека на другой язык при этом хочется сохранить темп/стиль/паузы исходной речи. Стоит ли искать speech-to-speech модели которые бы клонировали голос на другой язык, или же переводить в текст , делать перевод и там уже как-то с помощью tts моделей делать озвучку?
не стоит, синтезатору можно исходный файл подать как промт, он стиль скопирует
Спасибо, а можно пример такого синтезатора?
https://huggingface.co/spaces/coqui/xtts
А что за задача?
В плане это конечная цель
Конечная цель - просто научиться по исходному аудио делать аудио на другом языке но как будто бы говорит тот же человек
Я такое начинал делать в боте @clonevoicebot Пока работает только с видео кружками и жутко глючит пока
Обсуждают сегодня