реализовать интонации? Какие технологии и методы существуют для этого?
1. Вычислить f0 на source speech 2. Подавать этот f0 каким-то образом в речь 3. ??? 4. Обучить модель на предсказание f0 по контексту
Такатрон с вокодером у меня. (Вдруг вам это поможет) Может видели способ как размечать и создавать эти интонации в TTS (желательно качественные)
Такотрон свой обучили или модельку в интернете нашли?)
Так ты знаешь как сделать?
Насчёт последнего: Пообещавшись с Максом и Романом, я понял что крупные компании делают TTS ХУЖЕ ВСЕГО и на них ориентироваться смысла нет
Не знаю, кто такие Макс и Роман, уверен у них есть хорошие замеры, которые это подтверждают. Поделитесь примером хорошего интонационного синтеза на русском тогда?
Пока-что мой фаворит это SOVA
Понятно, спасибо!
У AMAI ещё отлично выходит. Но у них не Tacotron, а что-то своё вроде.
https://habr.com/ru/company/sberdevices/blog/548812/
Обсуждают сегодня