Ну у меня задача, когда в одном предложение слова на разных языках встречаются, чтоб норм говорил
Для этого можно обучить Т5 например. Датасеты есть
Вот пример: https://huggingface.co/maximxls/text-normalization-ru-terrible Но я бы взял предобученную byТ5, удалив ненужные языки, а не учил с нуля как в этом примере
Проблема в том, что другой язык может содержать звуки, которых нет в этом. Пример как здесь. Другая проблема, например если взять звук А в башкирском и в русском языках, они отличаются
Да, вопрос по идее в покрытии звуков в датасете. Интересно, были ли какие-то эксперименты(сетки), которые пытались обучаясь определить именно анатомические особенности чтоб воспроизвести больший спектр звуков. Вроде натыкался на что-то..
Находил какую-то вот такую штуку https://dood.al/pinktrombone/
А почему последний слог как-то оборван? Это особенности синтеза или файл так воспроизводится?
таймстамп слов были получены с помощью wav2vec, а эта модель границы слов чуток определяет не правильно. по хорошему тупо надо прибавить в конце предложения еще 200-300мс. и тогда обрыва быть не должно
Такая ситуация возникает только в самом последнем слоге или может появиться в любом месте?
с буквой М в конце иногда, но это уже особенность диктора. а так только с последним слогом предложения. дело в том, что диктор зачитывает большой текст, а я уже распознаю с помощью wav2vec и нахожу границы предложений. и вот тут как раз и возникает проблема
Обсуждают сегодня