Всем привет! У меня крайне прагматичная задача по распознаванию речи:

я сижу на приеме у педиатра в качестве ассистента (45 мин прием, почти все время разговор), и мне надоедает за ним записывать.

Пытался реализовать распознавание русской речи через whisper, но он плохо понимает даже такие простые фразы как «мочевой пузырь». При этом хорошо понимает распространенные названия бактерий типа Candida albicans.

Пробовал через --initial_prompt дать написание препаратов, органов и бактерий, но на выходе получается результат еще хуже.

Может есть советы, как улучшить результат?

Планирую потом распознанный текст отправлять в gpt-3.5 с промптом в виде струкруры медицинской карты, чтобы сплошной текст структурировался.

9 ответов

37 просмотров

Самый простой способ , собрать тексты с медицинскими терминами, и пробовать подключать лингво-модель с ними. Для whisper, это может быть проблемотично, легче взять другую модель asr.

Хочется оффтопом сказать, что классный проект! Поищите инфу про domain adaptation и keyword spotting, другие формулировки для подобной задачи: word boosting, contextual spelling correction. Contextual Spelling Correction (CSC) — имеет два значения в литературе. Интересующее нас — когда под контекстом подразумевается внешний словарь пользовательских терминов. Но да, вам тут в любом случае потребуется некий словарь «сложных» слов из медицинского домена и, скорее всего, другая моделька, как верно заметили. В Whisper прикрутить это можно, но кажется не очень тривиально

Но не забудьте о юридической стороне вопроса. Отправка пд в третьи системы без согласия третьей стороны черевато.

Степан-Долженко Автор вопроса
Serge Rumyantsev
Но не забудьте о юридической стороне вопроса. Отпр...

Я уже думал об этом. При использовании того же whisper данные отправляются на сервер?

Степан Долженко
Я уже думал об этом. При использовании того же whi...

Если виспер стоит у тебя на ПК, то нет. Если ты ставишь его на сервер, да.

Степан-Долженко Автор вопроса
Q
Если виспер стоит у тебя на ПК, то нет. Если ты ст...

все локально, у меня в распоряжении только ноутбук и микрофон.

Все он понимает

Степан-Долженко Автор вопроса
Maks1m45
screenshot Все он понимает

Ну значит я криворукий:)

Степан-Долженко Автор вопроса
Maks1m45
screenshot Все он понимает

Если есть желание, могли бы мне с этим помочь?

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта