в нашем продукте используем STT от Яндекса (так же пробовали Google качество примерно одинаковое), мы расшифровываем диалоги записанные через сервисы интернет-звонков (Zoom. google meet etc). В диалогах учавствуют как правило 2 человека, за редким исключение 3 и более. Диалоги в 95% на русском языке и остальное английский. Суть проблемы заключается в том:
1. Нам нужно разбивать эти диалоги на реплики говорящих, а Яндекс это не позволяет делать, Google делает это, но тоже с плохой точностью
2. Качество транскриптов Яндекс русского языка так же очень далеко от идеала. Возможно это связано с именно нашей задачей, транскрибация диалогов записанных через сервисы звонков.
Я наткнулся на сервис https://dovetailapp.com/ который в себе тоже содержит сервис STT и вот они русский язык обрабатывают очень хорошо, к сожалению я не технический специалист и у нас в команде нет никого, кто мог бы как-то количественно сравнить качестно распознавания. Но чисто субъективно у них гораздо ближе к точному распознаванию и разбивает по ролям очень точно(то есть разделяет реплики говорящих)
У меня к вам 2 вопроса, может быть кто -то сможет проконсультировать?
1. Есть ли сервис, который предоставляет API и позволяет нам уже сейчас использовать его чтобы улучшить наши транскрипты, который лучше решает две проблемы,которые я описал выше - это разбиение по ролям и более лучшее распознавание русского языка в диалогах
2. Куда нам дальше двигаться с STT для наших задач? Как нам приблизиться к наилучшей реализации разбития на роли в речи и ближе всего к оригиналу получать транскрипт именно в нашем домене задач. Насколько дорого будет получить свою сеть для данных задач? Какая будет себестоимость у 1 минуты расшифровки на своей сети?
Буду благодарен за любую помощь или подсказку куда копать. Спасибо.
Можно сплошным текстом, но главное разделение: Спикер1: Сплошной текст его речи Спикер 2: Сплошной текст его речи
Можно сделать, скинь в личку текст .
Обсуждают сегодня