Всем привет! У меня крайне прагматичная задача по распознаванию речи:

Question

Всем привет! У меня крайне прагматичная задача по распознаванию речи:

я сижу на приеме у педиатра в качестве ассистента (45 мин прием, почти все время разговор), и мне надоедает за ним записывать.

Пытался реализовать распознавание русской речи через whisper, но он плохо понимает даже такие простые фразы как «мочевой пузырь». При этом хорошо понимает распространенные названия бактерий типа Candida albicans.

Пробовал через --initial_prompt дать написание препаратов, органов и бактерий, но на выходе получается результат еще хуже.

Может есть советы, как улучшить результат?

Планирую потом распознанный текст отправлять в gpt-3.5 с промптом в виде струкруры медицинской карты, чтобы сплошной текст структурировался.

#it #russian #speech-recognition

0

28.09.2023

9 ответов

65 просмотров

Oleg Pavlovich

Хочется оффтопом сказать, что классный проект! Поищите инфу про domain adaptation и keyword spotting, другие формулировки для подобной задачи: word boosting, contextual spelling correction. Contextual Spelling Correction (CSC) — имеет два значения в литературе. Интересующее нас — когда под контекстом подразумевается внешний словарь пользовательских терминов. Но да, вам тут в любом случае потребуется некий словарь «сложных» слов из медицинского домена и, скорее всего, другая моделька, как верно заметили. В Whisper прикрутить это можно, но кажется не очень тривиально

0

28.09.2023

Serge Rumyantsev

Но не забудьте о юридической стороне вопроса. Отправка пд в третьи системы без согласия третьей стороны черевато.

0

28.09.2023

Степан Долженко Автор вопроса

Serge Rumyantsev
Но не забудьте о юридической стороне вопроса. Отпр...

Я уже думал об этом. При использовании того же whisper данные отправляются на сервер?

0

28.09.2023

Q

Степан Долженко
Я уже думал об этом. При использовании того же whi...

Если виспер стоит у тебя на ПК, то нет. Если ты ставишь его на сервер, да.

0

28.09.2023

Степан Долженко Автор вопроса

Q
Если виспер стоит у тебя на ПК, то нет. Если ты ст...

все локально, у меня в распоряжении только ноутбук и микрофон.

0

28.09.2023

Maks1m45

Все он понимает

0

01.11.2023

Степан Долженко Автор вопроса

Maks1m45

Все он понимает

Ну значит я криворукий:)

0

01.11.2023

Степан Долженко Автор вопроса

Maks1m45

Все он понимает

Если есть желание, могли бы мне с этим помочь?

0

01.11.2023

Andre Park · Accepted Answer

Andre Park

Самый простой способ , собрать тексты с медицинскими терминами, и пробовать подключать лингво-модель с ними. Для whisper, это может быть проблемотично, легче взять другую модель asr.

0

28.09.2023

26 похожих чатов

Всем привет! У меня крайне прагматичная задача по распознаванию речи:

9 ответов

Похожие вопросы