Сегодня Повей на Интерспиче будет рассказывать про Next generation Kaldi,

кто-то что-то слышал про это?
Говорят, комбинация из https://github.com/k2-fsa/k2, https://github.com/k2-fsa/icefall и https://github.com/lhotse-speech/lhotse

7 ответов

23 просмотра

оооо спасибо!

Жаль, я не участвую в конференции... Эх, сделал бы кто-нибудь TLDR (извините за наглость)

Пётр- Автор вопроса

Обещают выпустить Open Source версию туториала позже, когда будут чуть больше готовы к релизу. Но, в кратце, очень сильный упор на дифференциируемые WFST — библиотеку K2. K2 позволяет посчитать градиент forward/viterbi скора некоторого графа по рёбрам исходных графов в некоторой операции. Например, у нас есть граф E — emissions (матрица логитов модели). Далее мы делаем операцию пересечения этого графа с графом, который пораждает все CTC выравнивания для нужного таргета. В итоге получаем граф, forward скор которого — это в точности CTC лосс, далее при помощи бэкпропа по WFST можем посчитать градиенты по матрице логитов, а оттуда в модель. Есть ещё библиотека Lhotse для загрузки данных для ASR. При помощи неё можно объединить форматы всех доступных открытых датасетов в один. Библиотека поддерживает wav-аугментации и правильно меняет таргеты под аугментации (например, при растяжении записи переписывает момент начала и длительность размеченных сегментов аудио). И есть Icefall — набор скриптов для обучения, что-то типа папки egs в Kaldi. Сейчас там реализован Conformer-CTC с использованием Lhotse и K2.

Пётр- Автор вопроса

Говорили, что Kaldi осталось полтора-два года, после этого планируют прекратить разработку. Обещают разумный переезд из Kaldi в комбинацию из Icefall+K2+Lhotse.

Первое если я правильно понял для ускорения CTC? Или более точно получается?

Пётр- Автор вопроса

Нет, получается медленнее. Это нужно чтобы в будущем написать более общие, другие лоссы.

понял, спасибо )

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта