озвучки, сервер с 5 A100 на 400Гб видеопамяти в общем, и навыки программирования (в основном приложений на c#), в нейросетях я довольно слаб
Что использовать? Желательно, чтобы там были хоть какие скрипты которые можно просто запустить обучаться, потому что я сам, скорее всего, не разберусь
Я использовал Nvidia NEMO Но не обучал. И давно это было. Может год назад. Уже могло выйти что то более популярное.
https://github.com/rhasspy/piper вот это можешь посмотреть. обучается быстро. для русского можешь посмотреть код здесь https://github.com/alphacep/vosk-tts/tree/master/vosk_tts
А первая вообще для русского не подходит? Или как оно ведёт себя?
воск обучен на основе первый ссылки, если не ошибаюсь. но с русскими словами приходится больше операций проводить, чтоб учесть ударение, звук. все эти операции и словари, на основе которого можно сделать, можно по второй ссылке достать
Обсуждают сегодня