170 похожих чатов

Коллеги, всем привет ) какие модели хороши сейчас для транскрибации аудио?

10 ответов

10 просмотров

Вроде whisper из коробки и wav2vec, если тюнить под другой язык

если русский, то vosk еще есть. смотря на какой железе запускать собираетесь

Anatoly-Belov Автор вопроса
Anatoly Belov
сперва все на Colab )

whisper - умеет сразу знаки препинания ставить, но может галлюцинировать wav2vec умеет вплоть до символа предсказать время, но без lm wer высокий получается, но зато быстро работает vosk маленький,шустрый. не давно еще и новую версию выпустили. вот тут в чате как раз можете уточнить https://t.me/speech_recognition_ru

Anatoly-Belov Автор вопроса
Anatoly-Belov Автор вопроса

Исходя из https://alphacephei.com/nsh/2023/01/22/russian-models.html И личного опыта могу посоветовать эти модели: https://huggingface.co/nvidia/stt_ru_conformer_transducer_large https://huggingface.co/nvidia/stt_ru_conformer_ctc_large В первой есть встроенная языковая модель, которая обучается править ошибки акустической. Вторая - просто акустическая модель. Что у той, что у другой есть свои плюсы и минусы, но на русском я ничего лучше не нашёл

Anatoly-Belov Автор вопроса
Aigiz K
а со скоростью как?

Датасет с аудио на 10к часов размечал около часа на цпу. Но если аудио длинные (более 25 сек), то скорость экспоненциально падает. В принципе, можно этого избежать, выключив слой внимания, но тогда ухудшается качество.

Похожие вопросы

Обсуждают сегодня

Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
55
Привет, нужен совет старших товарищей. Есть глобальная переменная var DefaultDataFolder:string; инициализируем DefaultDataFolder:='a:\_OUT\'; есть примитивная процедур...
Max Otto
14
Вопрос. Теоретический. Есть список команд. Команды отправляю в обработку некой функции, по очереди. Разные команды могут давать разные результаты после обработки. В зависимос...
Serjone
7
Всем вечера. Подскажите как лучше сделать. делаю на Д10 Например будет база данных на SQLite. в ней будет много таблиц. более 50шт Типа справочник. Содержать ID Name Id p...
Андрей Т 🐎
10
Я короче решил скомпилировать Nim в js, я думал он сработает как обычный транслятор. По итогу он мне создал файл с расширением js, и туда поместил кучу кода Вопрос, что это з...
𝕾𝖍𝖆𝖉𝖊 <suspense>
9
это группа токсиков или тех кто помогает?
Ибрагим
9
подскажите пожалуйста, как мне освободить результат записанный в переменную result? в чем проблема подскажите если МОЖЕТЕ?
Михаил Helper
28
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
мы пытаемся подменить функцию, которая имеет меньше инструкций относительно функции, которой подменяем. https://www.reddit.com/r/jailbreakdevelopers/comments/w06ujy/mshookfun...
Óðinn
6
У кого-нибудь есть под рукой функция кодирования юникода, которая из фразы На русском сделает \u041d\u0430\u0020\u0440\u0443\u0441\u0441\u043a\u043e\u043c ?
Daniil Smolyakov
7
Карта сайта