при передаче аудиозаписи модельке - оператива сжирается моментально вся(что в принципе логично)
Предполагаю, что нужно как-то ужимать аудиозапись и разбивать по батчам для распознавания, возможно в каких-то других форматах сохранять
Есть best practices по этому?
У меня цель быстро обрабатывать длинные аудиозаписи
Vosk пробовал две модели из коробки, качество меня не удовлетворило, возможно направите меня в его использовании
А вам только inference модели или её обучение? Если только первое, то проверьте, что выполняете код с with torch.no_grad(), возможно, оперативу выжирает расчёт градиентов
Да, спасибо Стыдно признавать, но в этом проблема и была
Обсуждают сегодня