В старых докладах было что E2E модели пробовали и экспериментировали для транскрибации, наверняка уже довели до ума https://www.youtube.com/watch?v=VVrvUH2cQv4