пояснить, зачем столько конфигов? Чем они различаются? А вообще, я попробовал обучить модель, используя mb_istft_vits2_base.json. Оказалось ну оччень долго! 😞Почему?
Конфигурации там несколько вариантов всего. Одна для одного диктора. Вторая для нескольких vctk. Долго учитсч по сравнению с piperом. По сравнению с диффузионными моделями учится очень быстро
"По сравнению" я имел ввиду сравнительно с простым vits. А здесь как-то странно, судя по логу эпохи бегут, а чекпоинты создаются очень редко, хотя, если верить гиперпараметрам, то сохранение должно происходить раз в тысячу глобальных шагов (global_step)...
Поясните, пожалуйста, в чем разница между вот этими конфигами: istft_vits2_base.json mini_istft_vits2_base.json Что означает префикс mb_... в именах других конфигов?
mb - multiband, в статье можно прочесть https://arxiv.org/abs/2210.15975
Обсуждают сегодня