Всем привет! Мне нужно распознавать русскую речь из аудио вместе с тайм кодами и я использую для этого Whisper, но там почему то адекватно работает только medium модель и она ...
Всем привет! Сейчас я пытаюсь обучить VITS в Cocui TTS на датасете Руслан чтобы в последствии дообучить на данных другого голоса чтобы скопировать этот конкретный голос, напри...
Рябят, подскажите пожалуйста, как можно убрать шумы и музыку с аудио, чтобы оставить только голос? Хочу вытащить голос из видео чтобы потом скопировать его
а как вообще происходит процесс обучения для vits, вот я хочу склонировать голос сидоровича, как будет выглядеть? то есть лучшим способом будет взять аудио файлы и на них с ну...
генерить нужно в пределах 4 секунд. Сейчас думаю попробовать использовать tortoise-tts, или есть что то лучше?