169 похожих чатов

Доброго дня ребят. обрабатываю массив data.txt полученный из транскрибирования звука

в текст , после токенизации и лемматизации столкнулся с проблемой. спец. термины, типо: ["биос", "сус-б", "дискретка"] ну и так далее, распознаны и обработаны в абракадабру(биоса -> ['би', 'са']). посоветуйте какое ни будь изящное решение. я думаю или до обучить модель распознавания голоса, но это значит - делать ещё один массив и до обучать сетку. Либо найти зависимости и сопоставить неправильно распознанное множество вариантов с нужным словом. думаю это проще. (может есть библиотечка для этого какая ни будь). В общем, кто сталкивался с обработкой терминов, подскажите каким путём пойти?

7 ответов

9 просмотров

И почему бы не загуглить "whisper fine tuning"? Или чем вы пользовались для распознавания?

Jin- Автор вопроса
Pavel Zheltouhov
И почему бы не загуглить "whisper fine tuning"? Ил...

Пользовался Vosk. Но wisper даёт тот же результат. В голосе много терминов из схемотехники вычислительных кластеров. Сигналы dgpu_pwr_srt например. Так что тут нужно решить именно проблему распознавания этих терминов.

Jin
Пользовался Vosk. Но wisper даёт тот же результат...

Я не вижу смысла не доучивать. Почему вы хотите избежать этого? Думаю, в этой области борьба за точность важнее инженерной простоты.

Jin- Автор вопроса
Pavel Zheltouhov
Я не вижу смысла не доучивать. Почему вы хотите из...

Думаю, что время на создание массива данных для до jбучения vosk/wisper будет большим. хотелось бы более красивого решения.

Jin
Думаю, что время на создание массива данных для до...

Доучить = красиво, патчить = некрасиво

Jin- Автор вопроса
Ілія Малекі
Доучить = красиво, патчить = некрасиво

Ахах) да уж. Тут вы правы. Блин. Сам это понимаю, но так хочется сэкономить время😊

Jin
Думаю, что время на создание массива данных для до...

Но ведь там просто некоторые жаргонизмы не распознаются. Достаточно нарезать файлы именно с этим словом.

Похожие вопросы

Обсуждают сегодня

А как старый хаскел с новым стыковать ? потому как тут работает https://play.haskell.org/saved/C3xpMzcd, а вот тут https://stepik.org/lesson/7602/step/9?unit=1473 нет ошибка C...
Fedor
131
Вопрос я правильно понимаю что в коде newtype ArrowMap k v = ArrowMap { getArrowMap :: k -> Maybe v } getArrowMap есть функция типа k -> Maybe v, если да, то не понимаю задач...
Fedor
64
Ребят, что лучше для реверса: гидра или ида?
En Vind Av Sorg
26
Делаю велосипед логгер. К сообщению хочу прикрутить некоторую информацию, типа, кем отправлено, какой уровень, и всякое такое. И тут подумалось мне, почему бы не хранить весь...
Serjone
24
Как Вы считаете нормально ли в двадцатых годах 21 века в ВУЗах Российской Федерации обучать студентов работе с TASM? Не слишком ли это "архаично"? (Если оффтоп или флейм для э...
Spiker01
52
Привет! Подскажите, а как создать ярлыки программ на рабочем столе и в меню "Пуск" для всех пользователей сразу? Точнее, интересует вопрос: в каких системных переменных лежат...
Моринаро
6
Комрады, хотел уточнить. Проперть в OnDestroy юнита-хозяина по-прежнему доступна? И еще уточнение: finalization юнита наступает раньше или позже OnDestroy?
Ed Doc
48
Продолжая диалог про свифт в проде – сейчас возник вопрос в активном наборе бекендеров. В основном в нашей компании мы фанаты Java Spring и полностью ей довольны. Однако найм ...
Guseyn
27
а не подскажете вот это скрин из какой IDE ?
Iluha Companets
14
Читаю сейчас [нет, уже больше не читаю!] курсовую о Булгакове, написанную, похоже, с помощью ChatGPT. Это удивительный психоделический опыт. Текст в основном написан в стиле б...
✨ Uni [🌊 В отпуске]
1
Карта сайта