на русском языке (для академических целей)? Модель vosk мне вполне подходит, но я так вкратце посмотрел vosk-api и не увидел там возможности выгрузить выходы акустики.
https://github.com/alphacep/vosk-api/blob/master/src/kaldi_recognizer.cc#L295
Они сравнивали её с Кварцнетом от Нвидии? https://ngc.nvidia.com/catalog/models/nvidia:nemo:stt_ru_quartznet15x5
Так там калдишная моделька, K/src/nnet3bin/nnet3-чототам посчитает.
Обсуждают сегодня