знакомые ей слова и которые она ранее произносила хорошо вдруг взять и перестать из синтезировать?
прям вообще ни с того ни с сего?
Пока так однозначно не могу сказать что могло предшествовать. Может нагрузка на сервак...выясняю
Провел ряд экспериментов и обнаружил что знаки препинания могут существенно нарушать синтез речи (какое-то заедание, зажовывание). Даже на тех данных, которая модель видела неоднократно. не знаю "Манделло ли всему виной", но факт есть факт (проверил на разных серверах и на моделях с разным количеством эпох)
какие могут быть предположения по этими обстоятельствам? VITS2, общее количество эпох 5 тысяч. Последняя модель хуже всех синтезирует речь. Но опять таки же смотря на каком тексте. Ниже приведу два файла одной и той же модели. Притом в коротком файле эти данные модель видела много раз
Вы сохраняли промежуточные чекпоинты в процессе обучения модели? Попробуйте с каким-нибудь из них. Вы не меняли фонемайзер? Может быть при обучении и при инференсе у вас какие-то не одинаковые фонемайзеры?
Да, сохранял промежуточные. Пробовал на них- результат +- такой же. Фонемайзер один. Предполагаю что возможно в датасете на вот этой фразе «Уважаемые дамы и господа, дорогие друзья, тема моего обращения.» ошибка какая-то (возможно перепутаны аудиофайлы между собой и с текстом). Завтра буду разбираться с датасетом- все равно хотел улучшить его и фонемы ручками доработать
У меня три предположения (все довольно тупые, но вдруг): 1. символы или их порядок у моделей отличаются. грубо говоря, где-то зашито, что модель понимает «абвгд…», а теперь грузится чекпоинт, где символы при обучении были в другом порядке, типа «.,?!абвгд…» и модель глючит, потому что при конвертации текста в айдишники получается ерунда 2. выше написано, что модель в продакшн-окружении, если ей синтезируют, не могло ли такое быть, что ей забыли сделать eval() или torch.no_grad и это повлияло? 3. или препроцессинг текста раньше был другой, возможно?
В итоге выяснил что Продакшн не оказывает влияния. Препроцессинг один и тот же. Удалось выяснить какая фраза вызывает ошибку. Сегодня-завтра пройдусь ещё раз по датасету. Что-то мне кажется где-то произошла ошибка в LJSpeech. Отпишу по результату. Большое спасибо всем участникам за диалог! 🫂
Обсуждают сегодня