прошелся, вижу, что vosk умеет на выход отдавать текст с таймингом для построения субтитров. Вопрос умеет ли то же самое делать Nvidia NeMo? В документации упоминаний об этом найти не удается.
class Hypothesis: timestep: (Optional) List of int timesteps where tokens were predicted. Вот из этого можно рассчитать вроде
Пока не могу найти где именно это указывается, тем не менее, спасибо за наводку..
Обсуждают сегодня