Какой объём звука использовали для обучения, с каким качеством разметки ?
Кто ни будь использовал для обучения Nvidia P40 24gb как они по производительности?
https://ngc.nvidia.com/catalog/models/nvidia:nemo:stt_en_contextnet_1024_mls ContextNet без LM выдает 3.9 на librispeech, при обучении на 42к дата сете. Возможно ли к такими R...
Есть ли какие ни будь методы определения неправильно распознанных слов, для CTC моделей?
Сталкивался ли кто с утечкой памяти GPU в Nemo ASR от Nvidia, при распознавании?
Влияет ли обрезка тишины в дата сете на качество? Например в семпле обучающем длинной 5 сек, 2 сек тишины, есть ли смысл её обрезать?
Использует ли кто RTX 3060 12Gb, как они по производительности ?
Пробовал ли кто нибудь учить сетки для расстановки ударений?
Кто ни будь пробовал slim-ipl от Facebook, как оно на русском ?
На cpu это 1 поток?