Погуглите MixerTTS. В Nemo есть реализация. У меня на русском ванильная версия завелась, а улучшенная (MixerTTSX) нет. В улучшенной версии в оригинале используют ALBERT (просто добавляя токены для слов перед декодером), но поскольку на русском его нет, я пробовала обычный BERT. У меня очень быстро портятся длительности звуков и питч почему-то. Интересно, конечно, было бы посмотреть, если бы кто-то ещё попробовал эту архитектуру на русском.
И там можно слои спокойной править? Просто я именно это имел ввиду.
Не совсем поняла вопрос. Наверное, можно скачать код к себе и править, что хочется.
Это я знаю. Мне просто нужно примерно понять границы чтобы ничего не поломать
Ну на этот вопрос, наверное, можно ответить только экспериментально. Если поломается — вернуть обратно.
Просто я до этого всегда с авторегрессионными работал и трансформерные это как что-то новенькое
И не совсем разобрался как с ними что-то интересное сделать. Понял только что плюсов много.
Обучал разные версии миксера для русского на RUSLAN’е - с ЛМ, без ЛМ, с ручным проставлением ударений и без - все завелись, работают неплохо. Без ударений с ЛМ не всегда правильно ударения проставляет, но по длительности слов вроде нормально угадывает. Правда пришлось ещё HiFiGan файн-тюнить, из коробки немного робовойс получался.
Пока нет, я прям в немо правил код, мб причешу и выложу
Обсуждают сегодня