Сегодня Повей на Интерспиче будет рассказывать про Next generation Kaldi,

кто-то что-то слышал про это?
Говорят, комбинация из https://github.com/k2-fsa/k2, https://github.com/k2-fsa/icefall и https://github.com/lhotse-speech/lhotse

7 ответов

11 просмотров

оооо спасибо!

Жаль, я не участвую в конференции... Эх, сделал бы кто-нибудь TLDR (извините за наглость)

Пётр- Автор вопроса

Обещают выпустить Open Source версию туториала позже, когда будут чуть больше готовы к релизу. Но, в кратце, очень сильный упор на дифференциируемые WFST — библиотеку K2. K2 позволяет посчитать градиент forward/viterbi скора некоторого графа по рёбрам исходных графов в некоторой операции. Например, у нас есть граф E — emissions (матрица логитов модели). Далее мы делаем операцию пересечения этого графа с графом, который пораждает все CTC выравнивания для нужного таргета. В итоге получаем граф, forward скор которого — это в точности CTC лосс, далее при помощи бэкпропа по WFST можем посчитать градиенты по матрице логитов, а оттуда в модель. Есть ещё библиотека Lhotse для загрузки данных для ASR. При помощи неё можно объединить форматы всех доступных открытых датасетов в один. Библиотека поддерживает wav-аугментации и правильно меняет таргеты под аугментации (например, при растяжении записи переписывает момент начала и длительность размеченных сегментов аудио). И есть Icefall — набор скриптов для обучения, что-то типа папки egs в Kaldi. Сейчас там реализован Conformer-CTC с использованием Lhotse и K2.

Пётр- Автор вопроса

Говорили, что Kaldi осталось полтора-два года, после этого планируют прекратить разработку. Обещают разумный переезд из Kaldi в комбинацию из Icefall+K2+Lhotse.

Первое если я правильно понял для ускорения CTC? Или более точно получается?

Пётр- Автор вопроса

Нет, получается медленнее. Это нужно чтобы в будущем написать более общие, другие лоссы.

понял, спасибо )

Похожие вопросы

Обсуждают сегодня

Ребят, а за скок можно впарить анон чат с апишкой и веб админкой ?
Eugene Неелов
15
А как лучше конвертировать физический адрес в виртуальный при маппинге? В случае ядра у меня, например, direct mapping, первые 768МБ я как есть мапплю в higher half, а остальн...
Evg Resh
26
а чем лучше всего сделать глобальный лок, если много нодов, до сотни? ну то есть мне надо, чтобы некоторые операции с объектом не происходили одновременно. перемещение между н...
Д. П.
15
с помощью чего можно бота добавить как админа в чат? (условно в боте есть кнопка, нажатие на которую приводит тебя к выбору чата и выдаче прав боту)
ηє νєямσяє
5
Подскажите как мне лучше держать websocket сединение и переодически передавать в него данные? Сначала я сделал так: for _ in 1...1000 { try? await ws.send("test") try...
Mihail Verenich
2
А цены чем оправданы?
Lencore
7
Или к тому, что возложить ответственность на команду OTP, это хорошо, а взять её на себя, это не хорошо? )
Юрий Жлоба
7
Hello, I want to ask. I trained EfficientNet V2 Small and achieved 98% accuracy and F1 score on test data. I did the same with a simple CNN and achieved 97% accuracy and F1 sc...
~
2
я часов 15 назад начал пытаться написать хоть что-то напоминающее ос и у меня есть проблема, которую я пытаюсь решить последние часов 5: есть крч 2 исходника с минимальным код...
Al1to
17
Есть инструмент чтобы сайт на свифте сверстать?
Danil Kovalev
3
Карта сайта