в с Vits из piper обучение дольше происходит. ты сколько по времени обучал, чтоб получить 170k степ?
кстати спасибо за совет с MFA aligner, все отлично работает!
да bigvgan. а что за istft, можешь ссылку дать?
https://github.com/FENRlR/MB-iSTFT-VITS2 нашел, спасибо. буду пробовать
в закрепе https://t.me/speech_recognition_ru/39648
Очень медленно работает :( Next text: Привет, теперь я могу говорить и по-русски. Как ваши дела? ё-фикация:прив+ет, теп+ерь я мог+у говор+ить и п+о - р+усски. к+ак в+аши д+ела? ё-фикация took 1.7176 seconds.
Привет. Я работаю над оптимизацией
И тут же не ефикация
да, там неудачно назвал, мне именно accentizer.process_all(TEXT) нужен
Ну там главный замедлитель это модель разрешения омографов
И ещё лучше по одному предложению подавать
а не лучше ли будет, если разделить слова, которые могут по разному произносится и если они есть, только тогда эту функцию вызывать?
Так оно работает именно так
в моем случае: process_yo took 0.0003 seconds. process_omographs took 0.0003 seconds. process_accent took 1.1534 seconds.
использую твои конфиги отсюда https://drive.google.com/drive/folders/1Auyova6g2akKjNtK-KadQampOyOML8jg скорость тренировки не шибко быстрая(если сравнить с piper). за 12 часов 40k steps всего. при этом сравниваю твой результат при 40k и свой. Твой намного лучше
Стикер
Стикер
Стикер
Стикер
Обсуждают сегодня