Сегодня Повей на Интерспиче будет рассказывать про Next generation Kaldi,

Question

Сегодня Повей на Интерспиче будет рассказывать про Next generation Kaldi,

кто-то что-то слышал про это?
Говорят, комбинация из https://github.com/k2-fsa/k2, https://github.com/k2-fsa/icefall и https://github.com/lhotse-speech/lhotse

#it #russian #speech-recognition

0

30.08.2021

7 ответов

23 просмотра

Ivan Finaev

Жаль, я не участвую в конференции... Эх, сделал бы кто-нибудь TLDR (извините за наглость)

0

30.08.2021

Пётр Автор вопроса

Обещают выпустить Open Source версию туториала позже, когда будут чуть больше готовы к релизу. Но, в кратце, очень сильный упор на дифференциируемые WFST — библиотеку K2. K2 позволяет посчитать градиент forward/viterbi скора некоторого графа по рёбрам исходных графов в некоторой операции. Например, у нас есть граф E — emissions (матрица логитов модели). Далее мы делаем операцию пересечения этого графа с графом, который пораждает все CTC выравнивания для нужного таргета. В итоге получаем граф, forward скор которого — это в точности CTC лосс, далее при помощи бэкпропа по WFST можем посчитать градиенты по матрице логитов, а оттуда в модель. Есть ещё библиотека Lhotse для загрузки данных для ASR. При помощи неё можно объединить форматы всех доступных открытых датасетов в один. Библиотека поддерживает wav-аугментации и правильно меняет таргеты под аугментации (например, при растяжении записи переписывает момент начала и длительность размеченных сегментов аудио). И есть Icefall — набор скриптов для обучения, что-то типа папки egs в Kaldi. Сейчас там реализован Conformer-CTC с использованием Lhotse и K2.

0

30.08.2021

Пётр Автор вопроса

Говорили, что Kaldi осталось полтора-два года, после этого планируют прекратить разработку. Обещают разумный переезд из Kaldi в комбинацию из Icefall+K2+Lhotse.

0

30.08.2021

Egor

Первое если я правильно понял для ускорения CTC? Или более точно получается?

0

30.08.2021

Пётр Автор вопроса

Нет, получается медленнее. Это нужно чтобы в будущем написать более общие, другие лоссы.

0

30.08.2021

Egor

понял, спасибо )