в текст , после токенизации и лемматизации столкнулся с проблемой. спец. термины, типо: ["биос", "сус-б", "дискретка"] ну и так далее, распознаны и обработаны в абракадабру(биоса -> ['би', 'са']). посоветуйте какое ни будь изящное решение. я думаю или до обучить модель распознавания голоса, но это значит - делать ещё один массив и до обучать сетку. Либо найти зависимости и сопоставить неправильно распознанное множество вариантов с нужным словом. думаю это проще. (может есть библиотечка для этого какая ни будь). В общем, кто сталкивался с обработкой терминов, подскажите каким путём пойти?
И почему бы не загуглить "whisper fine tuning"? Или чем вы пользовались для распознавания?
Пользовался Vosk. Но wisper даёт тот же результат. В голосе много терминов из схемотехники вычислительных кластеров. Сигналы dgpu_pwr_srt например. Так что тут нужно решить именно проблему распознавания этих терминов.
Я не вижу смысла не доучивать. Почему вы хотите избежать этого? Думаю, в этой области борьба за точность важнее инженерной простоты.
Думаю, что время на создание массива данных для до jбучения vosk/wisper будет большим. хотелось бы более красивого решения.
Доучить = красиво, патчить = некрасиво
Ахах) да уж. Тут вы правы. Блин. Сам это понимаю, но так хочется сэкономить время😊
Но ведь там просто некоторые жаргонизмы не распознаются. Достаточно нарезать файлы именно с этим словом.
Обсуждают сегодня