на датасете Руслан чтобы в последствии дообучить на данных другого голоса чтобы скопировать этот конкретный голос, например Сидоровича из Сталкера.
Я хочу обучить где то на 60к шагов и в конце у меня получатся эти 2 файлика.
Получится ли у меня скопировать конкретный голос Сидоровича если я дообучу обученную на Руслане VITS?
часов?? дай бог минут 6
Может на них обучить вокодер, а потом завокодить руслана?
всмысле, это как
Какой-нибудь svc-4.0
а он быстро преобразует текст в речь? просто в итоге со всеми оптимизациями мне нужен ответ менее чем за 3 сек
Вы не поняли. Это вокодер. Он преобразует один голос в другой грубо говоря
Это как то много датасетов и ресурсов займёт для одного голоса, я с трудом пытаюсь обучить 60к шагов VITS на Руслане.
С ходу не скажу. У меня эксперименты на 4090 заняли 3-4 часа
Скажем так: диктор где то месяц записывает. За этот месяц мы можем каждый день новый голос синтезировать
Ну смотрите. Вокодер у меня на 4090 обучился где-то за 2-3 часа (с учётом неудач). Весь датасет который по размеру как Руслан прогнался через вокодер за 30-40 минут
мне не особо такое подходит и если возможно нужен другой вариант
Обсуждают сегодня