топовые модели синтеза русской речи?
Насколько сложно научить такие модели говорить определённым голосом?
Я вижу 2 решения, на основании того что я тут читал. 1) тюнинг (дообучение на новый голос) 2) юзать модель с клонингом. Есть xtts. По качеству клонинга неплохо, однако помимо этого есть всякие баги со звуком. У меня оно например образец голоса в результат пихает в несколько разных мест дополнительно к заданному тексту. А какому именно голосу ты хочешь дообучить? Если у этого голоса не очень много семплов, можно взять rvc, обучить его и прогнать через него большой датасет. Проблема у большинства в том, что нет собственно этих самых датасетов, тоесть есть только Руслан и Наташа, где есть проблемы в разметке и качестве речи. Я не очень умный, поэтому использовал бы как основу Наташу от Николая или от Теры и из попробовал дотюнить.
Обсуждают сегодня