А кто то пробовал пипер обучить на двух языках?

11 ответов

9 просмотров

зачем?

Aigiz-K Автор вопроса
Terа́Spа́ce Stories: 10^12 Space |🥴🤗|
зачем?

Ну у меня задача, когда в одном предложение слова на разных языках встречаются, чтоб норм говорил

Aigiz K
Ну у меня задача, когда в одном предложение слова ...

Для этого можно обучить Т5 например. Датасеты есть

datascience xc
Для этого можно обучить Т5 например. Датасеты есть

Вот пример: https://huggingface.co/maximxls/text-normalization-ru-terrible Но я бы взял предобученную byТ5, удалив ненужные языки, а не учил с нуля как в этом примере

Aigiz-K Автор вопроса
datascience xc
Вот пример: https://huggingface.co/maximxls/text-n...

Проблема в том, что другой язык может содержать звуки, которых нет в этом. Пример как здесь. Другая проблема, например если взять звук А в башкирском и в русском языках, они отличаются

Да, вопрос по идее в покрытии звуков в датасете. Интересно, были ли какие-то эксперименты(сетки), которые пытались обучаясь определить именно анатомические особенности чтоб воспроизвести больший спектр звуков. Вроде натыкался на что-то..

Q
Да, вопрос по идее в покрытии звуков в датасете. И...

Находил какую-то вот такую штуку https://dood.al/pinktrombone/

А почему последний слог как-то оборван? Это особенности синтеза или файл так воспроизводится?

Aigiz-K Автор вопроса
Alexey Bazarov
А почему последний слог как-то оборван? Это особен...

таймстамп слов были получены с помощью wav2vec, а эта модель границы слов чуток определяет не правильно. по хорошему тупо надо прибавить в конце предложения еще 200-300мс. и тогда обрыва быть не должно

Aigiz K
таймстамп слов были получены с помощью wav2vec, а...

Такая ситуация возникает только в самом последнем слоге или может появиться в любом месте?

Aigiz-K Автор вопроса
Alexey Bazarov
Такая ситуация возникает только в самом последнем ...

с буквой М в конце иногда, но это уже особенность диктора. а так только с последним слогом предложения. дело в том, что диктор зачитывает большой текст, а я уже распознаю с помощью wav2vec и нахожу границы предложений. и вот тут как раз и возникает проблема

Похожие вопросы

Обсуждают сегодня

Продолжая диалог про свифт в проде – сейчас возник вопрос в активном наборе бекендеров. В основном в нашей компании мы фанаты Java Spring и полностью ей довольны. Однако найм ...
Guseyn
27
Читаю сейчас [нет, уже больше не читаю!] курсовую о Булгакове, написанную, похоже, с помощью ChatGPT. Это удивительный психоделический опыт. Текст в основном написан в стиле б...
✨ Uni [🌊 В отпуске]
1
Всем привет! поделитесь, пож-та, как кто дебажил / решал проблему с 504 Time out ошибкой от nginx, когда стучишься на свой vapor сервер? в логах /var/log/nginx/error.log е...
Paul
24
Я тут пытаюсь переработать архитектуру подсистемы памяти ядра во что-то осмысленное. Есть pmm, который создает набор range’ей(пока что только для ядра, потом для юзерспейса), ...
Evg Resh
19
Устроился на новую работу тут везде отступы 2 пробела. На всех моих предыдущих проектах, везде было 4, все мои пэт проекты, либы и тд. Первые дни я прям взвыл, сейчас уже прив...
Сергей Романенко
7
Спасибо! то есть должны пробрасываться до уровня os Linux-a?
Paul
10
Товарищи, объясните недалекому: спустя какое-то время tgbot перестал отправлять сообщения. В логах пусто, просто уснул. Видел в issues на гите, что проблема не только у меня. ...
advanc3d
9
Или кинули уже?
Magic
6
Всем привет! Решил написать тесты на апи, однако, sendRequest ругается и плюется варнингами и просит асинхронный контекст внутри заполнения request. Немного не понимаю, как мн...
Misha Moshenski
2
Кто-нибудь сталкивался с анализом текстов на ошибки и авто-подбором синонимов в тексте? Интересует: * или готовый софт который можно настроить под себя * или библиотеки для ...
Куся 🌿⃤ __UKS
5
Карта сайта