Кто кстати видел какие-нибудь бумажки/статьи по модификации fastPitch ?

10 ответов

21 просмотр

Погуглите MixerTTS. В Nemo есть реализация. У меня на русском ванильная версия завелась, а улучшенная (MixerTTSX) нет. В улучшенной версии в оригинале используют ALBERT (просто добавляя токены для слов перед декодером), но поскольку на русском его нет, я пробовала обычный BERT. У меня очень быстро портятся длительности звуков и питч почему-то. Интересно, конечно, было бы посмотреть, если бы кто-то ещё попробовал эту архитектуру на русском.

Nik- Автор вопроса
Korovsky
Погуглите MixerTTS. В Nemo есть реализация. У меня...

И там можно слои спокойной править? Просто я именно это имел ввиду.

Не совсем поняла вопрос. Наверное, можно скачать код к себе и править, что хочется.

Nik- Автор вопроса
Korovsky
Не совсем поняла вопрос. Наверное, можно скачать к...

Это я знаю. Мне просто нужно примерно понять границы чтобы ничего не поломать

Nik
Это я знаю. Мне просто нужно примерно понять грани...

Ну на этот вопрос, наверное, можно ответить только экспериментально. Если поломается — вернуть обратно.

Nik- Автор вопроса

Просто я до этого всегда с авторегрессионными работал и трансформерные это как что-то новенькое

Nik- Автор вопроса
Nik
Просто я до этого всегда с авторегрессионными рабо...

И не совсем разобрался как с ними что-то интересное сделать. Понял только что плюсов много.

Korovsky
Погуглите MixerTTS. В Nemo есть реализация. У меня...

Обучал разные версии миксера для русского на RUSLAN’е - с ЛМ, без ЛМ, с ручным проставлением ударений и без - все завелись, работают неплохо. Без ударений с ЛМ не всегда правильно ударения проставляет, но по длительности слов вроде нормально угадывает. Правда пришлось ещё HiFiGan файн-тюнить, из коробки немного робовойс получался.

Nik
Git есть?

Пока нет, я прям в немо правил код, мб причешу и выложу

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта