(speech synthesis markup language)? Это делается на уровне обучения - добавляются токены тишины и ускорения там, например. Или на моменте инференса мы запускаем его несколько раз и склеиваем как диктует SSML разметка. Второй вариант может неправильно учесть интонацию и добавить артефакты склейки, например, но интуитивно проще.
В общем, какие best practices существуют на это?
Чтива нет, но видел по такой штуке у нас доклад. Искажения там на спектрограмму накладывается, а потом озвучиваются вокодером
Обсуждают сегодня