изучая проекты по ASR и TTS вижу, что в корпусах смело меняют слова с «ё» не е, приводят к «е», короче говоря. Меня мучает вопрос, неужели это не вводит определенную ошибку в такие модели? По сути моделям требуется маппить два разных звука в один токен или наоборот. Видел примеры выводов TTS, которые вот в «ё» не умеют, читают «е», там где не нужно…
Я где-то сталкивался с идеей, что E2E-модели могут всякие нюансы языка разучивать сразу, но применимо ли это к данной проблеме? И по вашему опыту, проблема ли это вообще?
Аср регулярно приходится маппить два и больше разных звуков на один токен - безударные гласные, непроизносимые согласные, в английском вообще буквы каждый раз по новому читаются, и ничего, справляются. Так что ё в е сматчить это наименьшая из проблем.
Обсуждают сегодня