файле и каждая строчка там это через пробел разделенные токены.
Вопрос: по какому алгоритму ставить токены (пробовал жадный алгоритм - выбираем на каждом шаге максимально длинный токен из vocab прилагаемого с моделью ).
Проставлял hotwords score разный (от 1.5 до 10).
В итоге фамилия (например Кременчуг) не распознается верно ну ни как.
Или нужно не умничать и всегда задействовать:
```sherpa-onnx-cli text2token``` и передать --bpe-model
?
вот тут https://huggingface.co/alphacep/vosk-model-ru/tree/main/lang bpe-model взять
Спасибо! Выдает так: ▁с е вер ный я не добавлял специальный начальный токен 🤦♂️
Обсуждают сегодня