получается улучшить качество распознавания воска. Добавил новые слова в lexicon.txt к старым (с транскрипцией), создал my.lm+ru.lm 4-hgram-ную, далее при помощи
arpa2fst --disambig-symbol=#0 --read-symbol-table=data/dict/words.txt data/local/lang/lm_joint.arpa graph/G.fst
конвертировал в граф. При этом в консоль выводится куча странных предупреждений. Будто в каждой строке стоит Ъ:
WARNING (arpa2fst[5.5.958~1-57f8d]:Read():arpa-file-parser.cc:219) line 1106319 [-6.255829 <s> ъъъъ] skipped: word 'ъъъъ' not in symbol table
Хотя на самом деле их нет... Покрайне до мержа *.lm.
Возможно ли что из-за этого качество модели ухудшается посравнению с исходным состоянием, а не улучшается?..
вожможно, надо perplexity на тестовых данных посчитать
Обсуждают сегодня