Доброго дня ребят. обрабатываю массив data.txt полученный из транскрибирования звука

Question

Доброго дня ребят. обрабатываю массив data.txt полученный из транскрибирования звука

в текст , после токенизации и лемматизации столкнулся с проблемой. спец. термины, типо: ["биос", "сус-б", "дискретка"] ну и так далее, распознаны и обработаны в абракадабру(биоса -> ['би', 'са']). посоветуйте какое ни будь изящное решение. я думаю или до обучить модель распознавания голоса, но это значит - делать ещё один массив и до обучать сетку. Либо найти зависимости и сопоставить неправильно распознанное множество вариантов с нужным словом. думаю это проще. (может есть библиотечка для этого какая ни будь). В общем, кто сталкивался с обработкой терминов, подскажите каким путём пойти?

#programming #python #russian

0

06.06.2023

7 ответов

28 просмотров

Jin Автор вопроса

Pavel Zheltouhov
И почему бы не загуглить "whisper fine tuning"? Ил...

Пользовался Vosk. Но wisper даёт тот же результат. В голосе много терминов из схемотехники вычислительных кластеров. Сигналы dgpu_pwr_srt например. Так что тут нужно решить именно проблему распознавания этих терминов.

0

06.06.2023

Pavel Zheltouhov

Jin
Пользовался Vosk. Но wisper даёт тот же результат...

Я не вижу смысла не доучивать. Почему вы хотите избежать этого? Думаю, в этой области борьба за точность важнее инженерной простоты.

0

06.06.2023

Jin Автор вопроса

Pavel Zheltouhov
Я не вижу смысла не доучивать. Почему вы хотите из...

Думаю, что время на создание массива данных для до jбучения vosk/wisper будет большим. хотелось бы более красивого решения.

0

06.06.2023

Ілія Малекі

Jin
Думаю, что время на создание массива данных для до...

Доучить = красиво, патчить = некрасиво

0

06.06.2023

Jin Автор вопроса

Ілія Малекі
Доучить = красиво, патчить = некрасиво

Ахах) да уж. Тут вы правы. Блин. Сам это понимаю, но так хочется сэкономить время😊

0

06.06.2023

Pavel Zheltouhov

Jin
Думаю, что время на создание массива данных для до...

Но ведь там просто некоторые жаргонизмы не распознаются. Достаточно нарезать файлы именно с этим словом.

0

06.06.2023

Pavel Zheltouhov · Accepted Answer

Pavel Zheltouhov

И почему бы не загуглить "whisper fine tuning"? Или чем вы пользовались для распознавания?

0

06.06.2023

169 похожих чатов

Доброго дня ребят. обрабатываю массив data.txt полученный из транскрибирования звука

7 ответов

Похожие вопросы