секунд проверять то что говорит юзер, но я думаю что это можно сделать как то по другому
слушаю через speech_recognizer
Натренировать языковую модель на ключевую фразу типа окейгугл, от которой включается основное распознавание. Обычно это так.
Это непросто. Вот тут надо читать https://cmusphinx.github.io/wiki/tutorial/ Где-то ещё на хабре кажется были статьи. Офлайновые распознаватели довольно отсталые, и там чем меньше разных слов и звуков нужно распознавать, тем выше надёжность. От задачи зависит ещё.
спасибо посмотрю
Обсуждают сегодня