а там же трансформер и CNN, они квантизуются норм CNN еще и запрунить можно
была где-то на HF тетрадка по квантизации, из 1.2Гб до 300Мб сжималась модель, но вот качество падало критично, сейчас поищу
https://medium.com/georgian-impact-blog/compressing-wav2vec-2-0-f41166e82dc2
тоже интересно )
Обсуждают сегодня