Сегодня Повей на Интерспиче будет рассказывать про Next generation Kaldi,

кто-то что-то слышал про это?
Говорят, комбинация из https://github.com/k2-fsa/k2, https://github.com/k2-fsa/icefall и https://github.com/lhotse-speech/lhotse

7 ответов

20 просмотров

оооо спасибо!

Жаль, я не участвую в конференции... Эх, сделал бы кто-нибудь TLDR (извините за наглость)

Пётр- Автор вопроса

Обещают выпустить Open Source версию туториала позже, когда будут чуть больше готовы к релизу. Но, в кратце, очень сильный упор на дифференциируемые WFST — библиотеку K2. K2 позволяет посчитать градиент forward/viterbi скора некоторого графа по рёбрам исходных графов в некоторой операции. Например, у нас есть граф E — emissions (матрица логитов модели). Далее мы делаем операцию пересечения этого графа с графом, который пораждает все CTC выравнивания для нужного таргета. В итоге получаем граф, forward скор которого — это в точности CTC лосс, далее при помощи бэкпропа по WFST можем посчитать градиенты по матрице логитов, а оттуда в модель. Есть ещё библиотека Lhotse для загрузки данных для ASR. При помощи неё можно объединить форматы всех доступных открытых датасетов в один. Библиотека поддерживает wav-аугментации и правильно меняет таргеты под аугментации (например, при растяжении записи переписывает момент начала и длительность размеченных сегментов аудио). И есть Icefall — набор скриптов для обучения, что-то типа папки egs в Kaldi. Сейчас там реализован Conformer-CTC с использованием Lhotse и K2.

Пётр- Автор вопроса

Говорили, что Kaldi осталось полтора-два года, после этого планируют прекратить разработку. Обещают разумный переезд из Kaldi в комбинацию из Icefall+K2+Lhotse.

Первое если я правильно понял для ускорения CTC? Или более точно получается?

Пётр- Автор вопроса

Нет, получается медленнее. Это нужно чтобы в будущем написать более общие, другие лоссы.

понял, спасибо )

Похожие вопросы

Обсуждают сегодня

Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
3
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Коллеги, я тут для личных нужд пошел ставить MQTT сервер, пощупал mosquitto, но ужаснулся отсутствию такой банальности, как HTTP API для посмотреть список топиков. А тут что,...
Maksim Lapshin
14
Немного оффтопа: а кто на чем сидит для осдева в плане ide/редактора? Последнее время сидел на vscode, но я его прям не могу нормально воспринимать, перешел на сlion, но меня...
Evg Resh
29
Вопрос на перед, на следующую пятницу. Сколько строк кода можно вешать на одного программиста, понятно что если проект хорошо написан то можно и миллион. Но есть же где то пре...
AlekseyK Kluchnikov
31
Карта сайта