@Frappuccino_o я обучаю Vits2 на основе твоих настроек. По сравнению

в с Vits из piper обучение дольше происходит. ты сколько по времени обучал, чтоб получить 170k степ?

19 ответов

18 просмотров

кстати спасибо за совет с MFA aligner, все отлично работает!

Aigiz-K Автор вопроса

да bigvgan. а что за istft, можешь ссылку дать?

Aigiz-K Автор вопроса
Aigiz K
да bigvgan. а что за istft, можешь ссылку дать?

https://github.com/FENRlR/MB-iSTFT-VITS2 нашел, спасибо. буду пробовать

в закрепе https://t.me/speech_recognition_ru/39648

Aigiz-K Автор вопроса

у него там есть мультиязычный cleaner через IPA. Вот если и IPA конвертер воткнуть, то будет вообще круто

Aigiz-K Автор вопроса
Nikolay V. Shmyrev
в закрепе https://t.me/speech_recognition_ru/396...

Очень медленно работает :( Next text: Привет, теперь я могу говорить и по-русски. Как ваши дела? ё-фикация:прив+ет, теп+ерь я мог+у говор+ить и п+о - р+усски. к+ак в+аши д+ела? ё-фикация took 1.7176 seconds.

Aigiz K
Очень медленно работает :( Next text: Привет, теп...

Привет. Я работаю над оптимизацией

Aigiz-K Автор вопроса
datascience xc
И тут же не ефикация

да, там неудачно назвал, мне именно accentizer.process_all(TEXT) нужен

Aigiz K
да, там неудачно назвал, мне именно accentizer.pro...

Ну там главный замедлитель это модель разрешения омографов

Aigiz K
Очень медленно работает :( Next text: Привет, теп...

И ещё лучше по одному предложению подавать

Aigiz-K Автор вопроса
datascience xc
Ну там главный замедлитель это модель разрешения о...

а не лучше ли будет, если разделить слова, которые могут по разному произносится и если они есть, только тогда эту функцию вызывать?

Aigiz-K Автор вопроса
datascience xc
Ну там главный замедлитель это модель разрешения о...

в моем случае: process_yo took 0.0003 seconds. process_omographs took 0.0003 seconds. process_accent took 1.1534 seconds.

Aigiz-K Автор вопроса

использую твои конфиги отсюда https://drive.google.com/drive/folders/1Auyova6g2akKjNtK-KadQampOyOML8jg скорость тренировки не шибко быстрая(если сравнить с piper). за 12 часов 40k steps всего. при этом сравниваю твой результат при 40k и свой. Твой намного лучше

Aigiz-K Автор вопроса

Стикер

Aigiz-K Автор вопроса

Стикер

Aigiz-K Автор вопроса

Стикер

Aigiz-K Автор вопроса

Стикер

Похожие вопросы

Обсуждают сегодня

Так а кто может спарсить всех участников чата? Идишники
Magic
18
да пофиг на капчу зашел в чат и молчишь при этом ты нонейм? пошел вон
Magic
17
Гайз, а как отправлять с вейпора пуши на андроид? ) Меня вот осенило )))
Serg
11
А как можно понять что пользовательская программа завершилась если она не вызывала сисколл exit?
One
4
Всем доброго дня. Возвращаясь к вопросу о варнингах: есть ли способ заставить компилятор ругаться на вызов функций языка, которые уже не существуют? Например, я могу спокойно ...
Δημήτηρ
2
Все еще ржу с mov ax, 0xA000 ; graphic segment ?? mov gs, ax
Berkus Decker
4
Как думаете, будут макбуки на WWDC?
Dmytro
6
Привет, кто может сделать юзербота с апи? Задачи: - создавать группы - создавать каналы - задавать для созданных каналов аватарку или эмоджи, имя группы - добавлять в группы...
Lencore
13
Всем доброго вечера! Хочу поделиться своим злоключением с человеком, который, как оказалось сюда тоже скидывал свое резюме. Жаль, что я вашу группу не нашел раньше… человек ки...
Роман Ахмедзянов
4
у меня такой вопрос про память в x86 возник, может кто пояснить?.. у процессора есть (как минимум) 3 типа адресов (названия "п1", "п2", "п3" --- мои, чтобы проще было дальше)...
Toideng
10
Карта сайта