Уважаемые специалисты, не могли бы вы помочь мне разоброаться в

разнице между sphinx и vosk?
Интересует не вообще а в применении к моей конкретной ситуации.

Мы делаем мобильное приложение - тренажер, для изучающих иностранные языки. И функционал приложения предполагает, что пользователь произносит определенную фразу, которую приложение ожидает. И если она распознана - переходит к следующей. Таким образом нам не нужно понять что именно сказал пользователь, а нужно понять сказал ли он то, что мы ожидаем. Для подтверждения распознавания мы закрашиваем другим цветом распознанные слова из фразы.

Я понял, что vosk использует иные чем sphinx модели. Но не могу понять, будет ли в конкретно нашей ситуации лучше переходить на vosk.

Надеюсь у вас найдется минутка на пояснения. Или может быть вы можете посоветовать специалиста. заранее спасибо!

6 ответов

34 просмотра

Почему бы не сравнить ожидаемую фразу с распознанной 1. метриками mer wil... 2. являются ли фразы парафразами

Andrey-Khromov Автор вопроса
Alex Yurasov
Почему бы не сравнить ожидаемую фразу с распознанн...

на сфинксе пробовали делать нескольк фраз похожих, типа: - he learned a lot - he’s learnt a lot тут разницу сфинкс вообще не понимает. А если фразы более отличающиеся: - he go to school yesterday - he went to school yesterday то лучше конечно, но все равно при массовом использовании ошибается часто. И, кроме того, стало понятно, что для наших целей (тренировка, а не проверка) достаточно понять что произнесена именно эта фраза.

Andrey Khromov
на сфинксе пробовали делать нескольк фраз похожих,...

А вы какому языку обручаете? А если это какой то диалект в Дагестане или Индии где букв а много разных? То есть в основном вопрос в том, что вы хотите контролировать : что из вашей фразы он произнёс, или как он произнёс что-то из вашей фразы?

интересные задачки, во всяком случае скорость и акцент кажется мне ближе к работе со звуком, а вот без ошибок и изысканно(кстати не знаю как это фрмализовать) - выглядит как НЛП. Но насчет ошибок интересно, как корректировать ошибку АСР да и не вся разговорная лексика хорошо ложится на то, что используется при подготовке языковых нейросетей

Andrei ivanov
интересные задачки, во всяком случае скорость и ак...

прочел исходный текст задачи, ошибки видимо отпадают, ну без учета ошибок СТТ

Andrey-Khromov Автор вопроса
Andrei ivanov
интересные задачки, во всяком случае скорость и ак...

На самом деле это список - это ценности для пользователя. Добываются эти цели не столько распознавалклй, сколько алгоритмом тренировок. Например: чтобы быстро и без ошибок задать на англ вопрос: «за кем она замужем?» требуется натренироваться (повторениями) на произнесение вопросов с таким грамматическим шаблоном. Большинство пользователей не имеют такого шаблона в голове и им такая тренировка нужна. Сейчас распознавание у нас используется просто как сигнал продолжить и перецти к следующей фразе. Могу дать поиграться, если кто то интересуется тренировкой языка.

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта