Всем привет! У меня крайне прагматичная задача по распознаванию речи:

я сижу на приеме у педиатра в качестве ассистента (45 мин прием, почти все время разговор), и мне надоедает за ним записывать.

Пытался реализовать распознавание русской речи через whisper, но он плохо понимает даже такие простые фразы как «мочевой пузырь». При этом хорошо понимает распространенные названия бактерий типа Candida albicans.

Пробовал через --initial_prompt дать написание препаратов, органов и бактерий, но на выходе получается результат еще хуже.

Может есть советы, как улучшить результат?

Планирую потом распознанный текст отправлять в gpt-3.5 с промптом в виде струкруры медицинской карты, чтобы сплошной текст структурировался.

9 ответов

33 просмотра

Самый простой способ , собрать тексты с медицинскими терминами, и пробовать подключать лингво-модель с ними. Для whisper, это может быть проблемотично, легче взять другую модель asr.

Хочется оффтопом сказать, что классный проект! Поищите инфу про domain adaptation и keyword spotting, другие формулировки для подобной задачи: word boosting, contextual spelling correction. Contextual Spelling Correction (CSC) — имеет два значения в литературе. Интересующее нас — когда под контекстом подразумевается внешний словарь пользовательских терминов. Но да, вам тут в любом случае потребуется некий словарь «сложных» слов из медицинского домена и, скорее всего, другая моделька, как верно заметили. В Whisper прикрутить это можно, но кажется не очень тривиально

Но не забудьте о юридической стороне вопроса. Отправка пд в третьи системы без согласия третьей стороны черевато.

Степан-Долженко Автор вопроса
Serge Rumyantsev
Но не забудьте о юридической стороне вопроса. Отпр...

Я уже думал об этом. При использовании того же whisper данные отправляются на сервер?

Степан Долженко
Я уже думал об этом. При использовании того же whi...

Если виспер стоит у тебя на ПК, то нет. Если ты ставишь его на сервер, да.

Степан-Долженко Автор вопроса
Q
Если виспер стоит у тебя на ПК, то нет. Если ты ст...

все локально, у меня в распоряжении только ноутбук и микрофон.

Все он понимает

Степан-Долженко Автор вопроса
Maks1m45
screenshot Все он понимает

Ну значит я криворукий:)

Степан-Долженко Автор вопроса
Maks1m45
screenshot Все он понимает

Если есть желание, могли бы мне с этим помочь?

Похожие вопросы

Обсуждают сегодня

Как думаете через какой сервис они верифицируют?
inc.
5
Вопрос на перед, на следующую пятницу. Сколько строк кода можно вешать на одного программиста, понятно что если проект хорошо написан то можно и миллион. Но есть же где то пре...
AlekseyK Kluchnikov
31
Немного оффтопа: а кто на чем сидит для осдева в плане ide/редактора? Последнее время сидел на vscode, но я его прям не могу нормально воспринимать, перешел на сlion, но меня...
Evg Resh
29
Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
День добрый, подскажите пожалуйста, есть ли какой-то способ сказать ребару не компилировать определённое приложение? Всю доку их перечиатл ничего подобного не нашёл
Кирилл
14
На чём в основном щас пишут мини апы? Vuejs?
Goot evening Not everyone
6
Я правильно понимаю что нет способов получить список ожидающих заявок на вступление в группу с помощью бота из mtproto?
Шамиль Прилов
9
А какие существуют способы обработки ошибок выделения памяти в ядре? Т.е., допустим, есть функция, которая возвращает адрес свободной страницы в физической памяти и диапазон в...
disba1ancer
51
Вот объясните, как это работает: Вот есть допустим unix-подобная система, и программа запускает допустим printf или fork, как это передается ядру, и как оно обрабатывать начин...
Егор
14
Всем привет. Сейчас я изучаю erlang по книге Erlang and OTP in action. Дошел до главы где реализуется первый gen server на примере tcp rpc сервера. Меня очень сильно смутил ко...
Freezing Death
12
Карта сайта