качества транскрибации vosk за счёт обработки входящего войса и уменьшения скорости воспроизведения?
Вчера заметил что воску, к примеру, речь судьи перевести в текст проблематично…вот думаю стоит ли пробовать? Был ли у кого опыт такой практики?
Звук берется непосредственно с микрофона или из зала? Там случайно не слишком большая ревербирация (эхо)?
Из зала. Проблема распознавания не только на судебной речи, но и в войсах.. Вчера пробовал замедлять и убирать шумы предобработкой аудио- особого результата не дало :(
Предобработка только ухудшит, так делать не стоит. Если прям задача такая стоит, я бы предложил собрать такой датасет и обучить модель wav2vec. Ее можно обучить на 5-10 часах. А с учётом того что у судей словарный запас маленький, можно прикрутить языковую модель, чтоб уменьшить ошибки
Займусь сегодня отправкой запроса к whisper и дообработкой текста gpt-3.5…кому будет интересно- поделюсь результатами эксперимента
Обсуждают сегодня