вместо историй, слышится истори; вместо ключЕвской слышится ключЕвск; вместо барильефы слышится барильеф. Собственно вопрос про текст в LJspeech: стоит ли текст сокращать до восприятия, либо же все-таки писать слова полностью?
Мое имхо, что точно стоит попробовать убрать буквы, которые диктор не проговаривает, если у вас получится это сделать. В таком случае сетка научится произносить ровно то что есть. И есть надежда, что при использовании с прописанными окончаниями и т. п. выговаривать будет (другое дело на сколько всё слово целиком будет консистентно звучать в таком случае, если на трейне она целых слов слышала сильно меньше). В противном же случае, сетка разучит проглатывать звуки 100% и будет говорить максимально приближено к спикеру и, более того, скорее всего глотать звуки в неожиданных для вас местах.
Текст оставить как он правильно пишется и попробовать учить такого спикера в составе мультиспикер модели.
Лучше не до обучать, а со спикер эмбедингами многоголосую модель учить.
Тогда спикеры у которых мало данных или они шумные существенно подтянуться по качеству.
кстати да, вот под этим подпишусь
То, что у них разные тексты будут, не окажет негатива?
Обсуждают сегодня