как вы думаете, надо ли перед началом обучения TTS модели проставить в текстах ударения во всех омографах, или по мере обучения нейронная сеть сама разберется, куда падает ударение в зависимости от сочетания слов? Ради интереса прикрепляю к моему сообщению текстовый файл со списком омографов из романа "Преступление и наказание".
Я думал на детских книгах собрать датасет с омографами. Но на сколько я понимаю, ударения на ё и в омографах тюнят потом
Но наверняка я ошибаюсь и кто-то опытный подскажет варианты лучше
тоже сейчас трейню витц но на символьном уровне а не на фонемах,раставил в датасете ударения используя https://huggingface.co/inkoziev/accentuator вроде стало лучше
Ударения я расставляю по словарю во всех словах. Мой вопрос связан именно с омографами: сможет ли НС разобраться, что висеть может "зам+ок", а на горе может стоять "з+амок"? Или такие вещи может понять только живой человек? Можно ещё подавать при обучении равноударное слово...
я конечно не проверял но сетки такого типа не реагируют на контекст скорее всего
Не замечали, много там ошибок? По сравнению со StressRNN, например.
Гораздо лучше там все
Обсуждают сегодня