Есть несколько вопросов по speech recognition api: 1. Сейчас распознанный текст

приходит без пунктуации. Возможно ли попросить сервис расставлять точки/запятые?
2. Сейчас параметр confidence всегда приходит = 1 и в доках почемен как deprecated. Можно ли как-то узнать степень уверенности системы в распознанном слове? Чтобы например отдельно его подсветить в ui.
3. Нет ли возможности разделить текст по спикерам?

7 ответов

15 просмотров

1. Такой возможности нет 2. Можно игнорировать 3. Только если спикеры разделены по разным каналам

Vitaliy-Potapov Автор вопроса
Андрей
1. Такой возможности нет 2. Можно игнорировать 3. ...

Понял, спасибо! А вместо confidence нет ли какого-то способа узнать степень уверенности системы в слове?

Vitaliy Potapov
Понял, спасибо! А вместо confidence нет ли какого-...

можно попробовать сравнивать промежуточные итоги, но готовой метрики сейчас нет, насколько помню

1 и 3 — это задачи для отдельных нейросеток. Например сравнивать на сколько текущий фрагмент речи похож на предыдущий и выдавать предсказание тот ли это голос или другой. Правда при таком наивном подходе вряд ли получится нормально разделить более 2 спикеров.

Vitaliy-Potapov Автор вопроса
Андрей
можно попробовать сравнивать промежуточные итоги, ...

а промежуточные итоги для не-стрим распознавания как-то можно получить? Я использую long running recognize сейчас, и мне приходит только финальный результат.

Vitaliy-Potapov Автор вопроса
Nikolay Matrosov
1 и 3 — это задачи для отдельных нейросеток. Напри...

Это да. Но я думал, что это все внутри спичкита есть) Сейчас для примера загрузил тот же фрагмент в гугл распознавание: и разделение по спикерам, и пунктуация из коробки отработала довольно неплохо.

Vitaliy-Potapov Автор вопроса
Vitaliy Potapov
Это да. Но я думал, что это все внутри спичкита ес...

Разделение по спикерам на 1 канале кстати, т.е. оно по голосу определило

Похожие вопросы

Обсуждают сегодня

Подскажите, а есть vault lite или ченить такое?) А то нужен вольт для похода в вольт, но весит он ~500 мб) как-то многовато для парочки запросов ))
Alexandr Orloff
17
Всем привет, есть небольшая проблема Есть такой скрипт document.addEventListener('DOMContentLoaded', function () { const sliderTabs = document.querySelectorAll('.s...
A da
8
@go1337 @dblackCat Привет. Все ещё дрочусь с fastpanel. Добавил второй домен который должен смотреть в рут того же сайта, но так как это просто домен, а не сайт, я не могу ему...
Ross 🦴
9
До речі, в ево нема можливості чи якого розширення щоб з адмінки з телефона зайти і терміново щось в верстці поправити?
Женя
7
кто-нибудь пользуется тайм-трекерами во время работы? так много разных нагуглил, может есть что-то популярное
Lencore
8
Пацаны. Я разрабатываю софт для инвайтинга на телетон, и столкнулся с такой проблемой, в один из чатов не могу приглашать никого, не дает добавлять, в то же время через официа...
Kernel Panic
11
Скажите, а кому нужен Currency как отдельный плагин вместо полноценного ecommerce в OctoberCMS? Кто-то использует его уже или планирует в будущем? Может я что-то не понимаю?
Igor
13
Розмовами про Рево мені нагадали часи, коли шаблони правилися прямо в адмінці. Хто в курсі, чому відійшли від цієї практики, так блейд не працює? Доволі зручно ж було (інколи)
Женя
3
Всем добрый вечер, Рад оказаться в кругу единомышленников. Начинаю погружаться в мир .net веба. Зовут Ерасыл 🖖 У меня назрел вопрос: Какой процент проектов, прошедшие через в...
Ерасыл
6
Чому? Да тому що без GiT не уявляю нормального проекта а коли код в базі то то так собі
Dmytro Lukianenko
3
Карта сайта