Уважаемые специалисты, не могли бы вы помочь мне разоброаться в

разнице между sphinx и vosk?
Интересует не вообще а в применении к моей конкретной ситуации.

Мы делаем мобильное приложение - тренажер, для изучающих иностранные языки. И функционал приложения предполагает, что пользователь произносит определенную фразу, которую приложение ожидает. И если она распознана - переходит к следующей. Таким образом нам не нужно понять что именно сказал пользователь, а нужно понять сказал ли он то, что мы ожидаем. Для подтверждения распознавания мы закрашиваем другим цветом распознанные слова из фразы.

Я понял, что vosk использует иные чем sphinx модели. Но не могу понять, будет ли в конкретно нашей ситуации лучше переходить на vosk.

Надеюсь у вас найдется минутка на пояснения. Или может быть вы можете посоветовать специалиста. заранее спасибо!

6 ответов

30 просмотров

Почему бы не сравнить ожидаемую фразу с распознанной 1. метриками mer wil... 2. являются ли фразы парафразами

Andrey-Khromov Автор вопроса
Alex Yurasov
Почему бы не сравнить ожидаемую фразу с распознанн...

на сфинксе пробовали делать нескольк фраз похожих, типа: - he learned a lot - he’s learnt a lot тут разницу сфинкс вообще не понимает. А если фразы более отличающиеся: - he go to school yesterday - he went to school yesterday то лучше конечно, но все равно при массовом использовании ошибается часто. И, кроме того, стало понятно, что для наших целей (тренировка, а не проверка) достаточно понять что произнесена именно эта фраза.

Andrey Khromov
на сфинксе пробовали делать нескольк фраз похожих,...

А вы какому языку обручаете? А если это какой то диалект в Дагестане или Индии где букв а много разных? То есть в основном вопрос в том, что вы хотите контролировать : что из вашей фразы он произнёс, или как он произнёс что-то из вашей фразы?

интересные задачки, во всяком случае скорость и акцент кажется мне ближе к работе со звуком, а вот без ошибок и изысканно(кстати не знаю как это фрмализовать) - выглядит как НЛП. Но насчет ошибок интересно, как корректировать ошибку АСР да и не вся разговорная лексика хорошо ложится на то, что используется при подготовке языковых нейросетей

Andrei ivanov
интересные задачки, во всяком случае скорость и ак...

прочел исходный текст задачи, ошибки видимо отпадают, ну без учета ошибок СТТ

Andrey-Khromov Автор вопроса
Andrei ivanov
интересные задачки, во всяком случае скорость и ак...

На самом деле это список - это ценности для пользователя. Добываются эти цели не столько распознавалклй, сколько алгоритмом тренировок. Например: чтобы быстро и без ошибок задать на англ вопрос: «за кем она замужем?» требуется натренироваться (повторениями) на произнесение вопросов с таким грамматическим шаблоном. Большинство пользователей не имеют такого шаблона в голове и им такая тренировка нужна. Сейчас распознавание у нас используется просто как сигнал продолжить и перецти к следующей фразе. Могу дать поиграться, если кто то интересуется тренировкой языка.

Похожие вопросы

Обсуждают сегодня

Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
3
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Коллеги, я тут для личных нужд пошел ставить MQTT сервер, пощупал mosquitto, но ужаснулся отсутствию такой банальности, как HTTP API для посмотреть список топиков. А тут что,...
Maksim Lapshin
14
Немного оффтопа: а кто на чем сидит для осдева в плане ide/редактора? Последнее время сидел на vscode, но я его прям не могу нормально воспринимать, перешел на сlion, но меня...
Evg Resh
29
Вопрос на перед, на следующую пятницу. Сколько строк кода можно вешать на одного программиста, понятно что если проект хорошо написан то можно и миллион. Но есть же где то пре...
AlekseyK Kluchnikov
31
Карта сайта