голос по примерам. Допустим у меня есть достаточно не плохой набор сэмплов с записью голоса (больше часа точно), хотелось бы сделать его имитацию. Какой подход в данный момент самый качественный, простой и доступный? Есть ли какие то крайне недорогие сервисы для этого, которые дают хороший результат генерации голоса по тексту? Или лучше что то своё пилить на основе открытых моделей?
Нужно будет воспроизводить как русский, так и английский текст (но это отдельные голоса, так что модели для этих двух случаев можно и разные использовать). Не реал тайм. Так же было бы отлично, если бы можно было задать, с какой интонацией/эмоциональным окрасом должен воспроизводиться текст, но это я наверное уже дофига хочу (хотя если из всех семплов, к примеру, отобрать только те, где речь будет преимущественно агрессивной, то и на выходе все тексты должны озвучиваться с агрессивным эмоциональном окрасом, да?)
Из интересного, что сам нашёл https://github.com/snakers4/silero-models#speech-to-text но насколько я понял там эту модель дообучить на новый голос нельзя, только использовать те, что существуют. Если я ошибаюсь, то поделитесь пожалуйста способом, как их модель можно на новый голос дообучить, может какие то материалы есть в сети, которые ещё не нашёл. Честно говоря до этого вообще не работал с аудиомоделями
А какая конечная цель? Если это нужно для какого-то единоразового применения, на много проще будет использовать voice to voice. Тоесть обучил модель на голос, озвучил самостоятельно нужный текст другим голосом и затюнил запись под голос модели. Для этого сейчас используют so vits svc или diffsinger или иные на которые есть гайды даже на Ютуб. https://github.com/svc-develop-team/so-vits-svc https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUi *Важное замечание: я вообще не разбираюсь в теме, просто умею гуглить
нет, не единоразово, нужно что бы в автоматическом режиме текст озвучивался персонажем. Но не в реал тайме и текста не много в принципе. Хм, а если сначала озвучить текст голосом уже доступного робота, а потом его через войс-ту-войс сделать похожим на голос персонажа? Не слишком ли при этом качество упадёт, от двух генераций?
Стоит протестировать. Поделись потом результатами, если будешь пробовать)
Попробуйте BARK
Обсуждают сегодня