Здравствуйте. У меня есть вопрос к знатокам из сообщества. Мы сейчас

в нашем продукте используем STT от Яндекса (так же пробовали Google качество примерно одинаковое), мы расшифровываем диалоги записанные через сервисы интернет-звонков (Zoom. google meet etc). В диалогах учавствуют как правило 2 человека, за редким исключение 3 и более. Диалоги в 95% на русском языке и остальное английский. Суть проблемы заключается в том:
1. Нам нужно разбивать эти диалоги на реплики говорящих, а Яндекс это не позволяет делать, Google делает это, но тоже с плохой точностью
2. Качество транскриптов Яндекс русского языка так же очень далеко от идеала. Возможно это связано с именно нашей задачей, транскрибация диалогов записанных через сервисы звонков.

Я наткнулся на сервис https://dovetailapp.com/ который в себе тоже содержит сервис STT и вот они русский язык обрабатывают очень хорошо, к сожалению я не технический специалист и у нас в команде нет никого, кто мог бы как-то количественно сравнить качестно распознавания. Но чисто субъективно у них гораздо ближе к точному распознаванию и разбивает по ролям очень точно(то есть разделяет реплики говорящих)
У меня к вам 2 вопроса, может быть кто -то сможет проконсультировать?
1. Есть ли сервис, который предоставляет API и позволяет нам уже сейчас использовать его чтобы улучшить наши транскрипты, который лучше решает две проблемы,которые я описал выше - это разбиение по ролям и более лучшее распознавание русского языка в диалогах
2. Куда нам дальше двигаться с STT для наших задач? Как нам приблизиться к наилучшей реализации разбития на роли в речи и ближе всего к оригиналу получать транскрипт именно в нашем домене задач. Насколько дорого будет получить свою сеть для данных задач? Какая будет себестоимость у 1 минуты расшифровки на своей сети?

Буду благодарен за любую помощь или подсказку куда копать. Спасибо.

2 ответов

26 просмотров
Egor-Kononov Автор вопроса

Можно сплошным текстом, но главное разделение: Спикер1: Сплошной текст его речи Спикер 2: Сплошной текст его речи

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта