Всем привет! Подскажи пожалуйста по поводу моделей, имитирующий чей то

голос по примерам. Допустим у меня есть достаточно не плохой набор сэмплов с записью голоса (больше часа точно), хотелось бы сделать его имитацию. Какой подход в данный момент самый качественный, простой и доступный? Есть ли какие то крайне недорогие сервисы для этого, которые дают хороший результат генерации голоса по тексту? Или лучше что то своё пилить на основе открытых моделей?
Нужно будет воспроизводить как русский, так и английский текст (но это отдельные голоса, так что модели для этих двух случаев можно и разные использовать). Не реал тайм. Так же было бы отлично, если бы можно было задать, с какой интонацией/эмоциональным окрасом должен воспроизводиться текст, но это я наверное уже дофига хочу (хотя если из всех семплов, к примеру, отобрать только те, где речь будет преимущественно агрессивной, то и на выходе все тексты должны озвучиваться с агрессивным эмоциональном окрасом, да?)
Из интересного, что сам нашёл https://github.com/snakers4/silero-models#speech-to-text но насколько я понял там эту модель дообучить на новый голос нельзя, только использовать те, что существуют. Если я ошибаюсь, то поделитесь пожалуйста способом, как их модель можно на новый голос дообучить, может какие то материалы есть в сети, которые ещё не нашёл. Честно говоря до этого вообще не работал с аудиомоделями

4 ответов

22 просмотра

А какая конечная цель? Если это нужно для какого-то единоразового применения, на много проще будет использовать voice to voice. Тоесть обучил модель на голос, озвучил самостоятельно нужный текст другим голосом и затюнил запись под голос модели. Для этого сейчас используют so vits svc или diffsinger или иные на которые есть гайды даже на Ютуб. https://github.com/svc-develop-team/so-vits-svc https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUi *Важное замечание: я вообще не разбираюсь в теме, просто умею гуглить

Призрачный-Человек Автор вопроса
Q
А какая конечная цель? Если это нужно для какого-т...

нет, не единоразово, нужно что бы в автоматическом режиме текст озвучивался персонажем. Но не в реал тайме и текста не много в принципе. Хм, а если сначала озвучить текст голосом уже доступного робота, а потом его через войс-ту-войс сделать похожим на голос персонажа? Не слишком ли при этом качество упадёт, от двух генераций?

Призрачный Человек
нет, не единоразово, нужно что бы в автоматическом...

Стоит протестировать. Поделись потом результатами, если будешь пробовать)

Попробуйте BARK

Похожие вопросы

Обсуждают сегодня

Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Коллеги, я тут для личных нужд пошел ставить MQTT сервер, пощупал mosquitto, но ужаснулся отсутствию такой банальности, как HTTP API для посмотреть список топиков. А тут что,...
Maksim Lapshin
14
Немного оффтопа: а кто на чем сидит для осдева в плане ide/редактора? Последнее время сидел на vscode, но я его прям не могу нормально воспринимать, перешел на сlion, но меня...
Evg Resh
29
Вопрос на перед, на следующую пятницу. Сколько строк кода можно вешать на одного программиста, понятно что если проект хорошо написан то можно и миллион. Но есть же где то пре...
AlekseyK Kluchnikov
31
Карта сайта