Кто-То тут end-to-end модели в фреймворке WFST умеет инферить? Я

Question

Кто-То тут end-to-end модели в фреймворке WFST умеет инферить? Я

на интерспиче спрашивал Гугл, они рассказывали что у них какой-то хитрый пайплайн, что они умеют end-to-end модели RNN-T пересекать с WFST грамматиками, получается что-то типа инференса через HCLG, но вместо готовой решётки — отложенное вычисление нейронки.

#it #russian #speech-recognition

0

16.11.2021

1 ответов

44 просмотра

Николай Мальковский · Accepted Answer

В калди/воске такое тоже есть, только отдельной стадией, пересечение с wfst грамматиками -- это скорее всего какой-нибудь shallow fusion, кажется, что техника известная, вроде бы даже в deepspeech видел использование wfst в таком виде. Касательно изначального вопроса, была например на IS19 статья от fair про CTC-акустику + HCLG, у них вроде до сих пор что-то близкое к sota на librespeech (без extra data), на тот момент точно было "почти" sota

26 похожих чатов

Кто-То тут end-to-end модели в фреймворке WFST умеет инферить? Я

1 ответов

Похожие вопросы