e2e модели (использую Conformer + CTC от NeMo)? Сейчас беру логиты, делаю рескоринг при помощи n-gram lm, работает быстро, но хочу улучшить качество.
Наверно и существенно медленнее было?
да, скорость на ГПУ была в разы меньше чем n-gram на ЦПУ
ruT5 дообучить. Качество - плюс. Скорость - минус.
Да, хотелось бы, конечно, это как-то в реальных условиях использовать
Обучить LM на своём домене. Конформер с BPE?
Да, но я вот смотрю, гугл для e2e как-то делает рескоринг, в телефоны пихает. Нигде правда реализации не нашел.
А где видели такое?
Большой Nemo Conformer дает плохое качество ?
пробовал рескорить гипотезы с нескольких моделей kenlm после QuartzNet при помощи gpt-2 даёт отличные результаты в ситуации когда есть несколько доменов, рескорер выберет нужную гипотезу https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/asr/asr_language_modeling.html#neural-rescoring
Рескоринг даст не большой (0-1% wer) прирост по сравнению, с 6gr LM. Попробуйте с настройками LM по экспериментировать (alpha, beta, beam_weidth ...)
Да, я параметры grid search'ем подтюнил. Просто хочется что-то поумней n-gram задействовать. Возможно вы правы по части разметки и т.д. Может стоит на нее посмотреть и аугментаций добавить.
Обсуждают сегодня