то мульти-языковые STT(speech to text), с поддержкой русского языка? whisper сразу отпадает
Других нет хороших. Почему виспер отпадает и почему для каждого языка свою модель не использовать?
Виспер отпадает, ибо для его использования нужен объем VRAM. Саму модель я хотел использовать на впс без гпу. Ну а для каждого языка свою модель использовать - дело в том, что входные данные для модели будут не только на русском языке, возможно с вставками английского, украинского, казахского и японского
Как вариант, можете взять vosk и данные слать сразу в несколько моделей на нужных языках, а далее сравнивать текст. Сам не пробовал, но это первое что пришло в голову, т.к. мультиязычных моделей ASR с сопоставимым качеством, как у моноязычных, попросту нету
api в помощь.. Господа, подскажите чем вы размечаете аудио-массив для нарезки семплов?
Обсуждают сегодня