У sherpa-Onnx (и Vosk 0.52) есть hot_words. Их нужно подавать в

Question

У sherpa-Onnx (и Vosk 0.52) есть hot_words. Их нужно подавать в

файле и каждая строчка там это через пробел разделенные токены.

Вопрос: по какому алгоритму ставить токены (пробовал жадный алгоритм - выбираем на каждом шаге максимально длинный токен из vocab прилагаемого с моделью ).
Проставлял hotwords score разный (от 1.5 до 10).

В итоге фамилия (например Кременчуг) не распознается верно ну ни как.

Или нужно не умничать и всегда задействовать:
```sherpa-onnx-cli text2token``` и передать --bpe-model
?

#it #russian #speech-recognition

0

11.11.2023