на интерспиче спрашивал Гугл, они рассказывали что у них какой-то хитрый пайплайн, что они умеют end-to-end модели RNN-T пересекать с WFST грамматиками, получается что-то типа инференса через HCLG, но вместо готовой решётки — отложенное вычисление нейронки.
В калди/воске такое тоже есть, только отдельной стадией, пересечение с wfst грамматиками -- это скорее всего какой-нибудь shallow fusion, кажется, что техника известная, вроде бы даже в deepspeech видел использование wfst в таком виде. Касательно изначального вопроса, была например на IS19 статья от fair про CTC-акустику + HCLG, у них вроде до сих пор что-то близкое к sota на librespeech (без extra data), на тот момент точно было "почти" sota
Обсуждают сегодня