Всем спасибо за подсказки! Можно еще одну вещь уточнить: никак не

Question

Всем спасибо за подсказки! Можно еще одну вещь уточнить: никак не

получается улучшить качество распознавания воска. Добавил новые слова в lexicon.txt к старым (с транскрипцией), создал my.lm+ru.lm 4-hgram-ную, далее при помощи

arpa2fst --disambig-symbol=#0 --read-symbol-table=data/dict/words.txt data/local/lang/lm_joint.arpa graph/G.fst

конвертировал в граф. При этом в консоль выводится куча странных предупреждений. Будто в каждой строке стоит Ъ:

WARNING (arpa2fst[5.5.958~1-57f8d]:Read():arpa-file-parser.cc:219) line 1106319 [-6.255829 <s> ъъъъ] skipped: word 'ъъъъ' not in symbol table

Хотя на самом деле их нет... Покрайне до мержа *.lm.

Возможно ли что из-за этого качество модели ухудшается посравнению с исходным состоянием, а не улучшается?..

#it #russian #speech-recognition

0

20.08.2021

1 ответов

53 просмотра

Nikolay V. Shmyrev · Accepted Answer

Nikolay V. Shmyrev

вожможно, надо perplexity на тестовых данных посчитать

0

20.08.2021

26 похожих чатов

Всем спасибо за подсказки! Можно еще одну вещь уточнить: никак не

1 ответов

Похожие вопросы