кто-то что-то слышал про это?
Говорят, комбинация из https://github.com/k2-fsa/k2, https://github.com/k2-fsa/icefall и https://github.com/lhotse-speech/lhotse
оооо спасибо!
Жаль, я не участвую в конференции... Эх, сделал бы кто-нибудь TLDR (извините за наглость)
Обещают выпустить Open Source версию туториала позже, когда будут чуть больше готовы к релизу. Но, в кратце, очень сильный упор на дифференциируемые WFST — библиотеку K2. K2 позволяет посчитать градиент forward/viterbi скора некоторого графа по рёбрам исходных графов в некоторой операции. Например, у нас есть граф E — emissions (матрица логитов модели). Далее мы делаем операцию пересечения этого графа с графом, который пораждает все CTC выравнивания для нужного таргета. В итоге получаем граф, forward скор которого — это в точности CTC лосс, далее при помощи бэкпропа по WFST можем посчитать градиенты по матрице логитов, а оттуда в модель. Есть ещё библиотека Lhotse для загрузки данных для ASR. При помощи неё можно объединить форматы всех доступных открытых датасетов в один. Библиотека поддерживает wav-аугментации и правильно меняет таргеты под аугментации (например, при растяжении записи переписывает момент начала и длительность размеченных сегментов аудио). И есть Icefall — набор скриптов для обучения, что-то типа папки egs в Kaldi. Сейчас там реализован Conformer-CTC с использованием Lhotse и K2.
Говорили, что Kaldi осталось полтора-два года, после этого планируют прекратить разработку. Обещают разумный переезд из Kaldi в комбинацию из Icefall+K2+Lhotse.
Первое если я правильно понял для ускорения CTC? Или более точно получается?
Нет, получается медленнее. Это нужно чтобы в будущем написать более общие, другие лоссы.
понял, спасибо )
Обсуждают сегодня