@frappuccino_o я обучаю Vits2 на основе твоих настроек. По сравнению в с Vits из piper обучение дольше происходит. ты сколько по времени обучал, чтоб получить 170k степ?
А кто то пробовал пипер обучить на двух языках?
При создание датасета TTS возникает стандартная такая задача: есть текст, разбитый на предложения и один большой аудиофайл, с голосом диктора. Между предложениями диктор делае...
Вопрос по будущему датасету для TTS: на какие моменты надо обращать внимание? Пока выделил себе следующие: 1. помещение и оборудование, где записываем одно и то же(чтоб фонов...
ребята, а имел кто дело с AEC(acoustic echo cancellation)?
Ребята, для синтеза речи решил сперва сделать предобработку аудио и отфильтровать плохие. Пока планирую сделать следующее: 1. Денойзер(хвалят фейсбучный) 2. Выравнивание гром...
С распознавание речи меня волнует другой вопрос. Вот слово ПРИВЕТ в виде wave графика у всех выглядит по разному. Но мы же легко можем разобрать, когда оно произнесено вообще ...
@nshmyrev а сколько эпох вы обучали piper?
@nshmyrev а вы для синтеза речи какой датасет использовали? можете поделиться?
@nshmyrev а чтоб обучить большую версию для русского языка, сколько часов аудио понадобилось, не знаете?
а нельзя ли вместо язковой модели или NGRAM использовать как раз только текущее предложение?
А размеры rut5 какие? А то LM для Wav2Vec2ProcessorWithLM весит очень много