При создание датасета TTS возникает стандартная такая задача: есть текст, разбитый

на предложения и один большой аудиофайл, с голосом диктора. Между предложениями диктор делает паузу. Иногда диктор одно предложение начинает читать, понимает что ошибся и сделав паузу, еще раз читает.
Надо теперь сопоставить куски аудио к предложениям.
Кто как решает такую задачу?
Заранее записать каждое предложение в отдельный файл не рассматриваем. Имеем то, что имеем.

6 ответов

19 просмотров

Текст разбиваем на предложения, аудио - по большим паузам (размер паузы надо подобрать). В каждом аудио распознаем речь с помощью ASR. Потом, для каждого кусочка аудио с распознанные текстом, измеряем какой-нибудь edit distance до каждого ground truth предложения. Выбираем наиболее близкое предложение, и если edit distance ниже порога - берём его как текст для этого кусочка. Чем ниже порог - тем больше будет потеряно данных, но тем чище будет датасет

Aigiz-K Автор вопроса
Name
Текст разбиваем на предложения, аудио - по большим...

так и делаю сейчас. но много нюансов: 1.одно предложение может быть разбито на несколько аудио файлов 2. два предложения могут находиться внутри одного аудиофайла(если паузу сделал маленькую) 3. если все делать автоматом, то приходится отбраковывать много данных. а они на вес золота. поэтому пока думаю в сторону некого UI где человек может просмотреть. Но надо по максимуму упростить ему задачу

Aigiz K
так и делаю сейчас. но много нюансов: 1.одно предл...

Subtitle composer, редактор субтитров. У меня были аудио, распознала их большим русским адаптированным виспером с помощью whisperX (чтобы были знаки препинания и таймстепы), а потом все проверяла в редакторе, там можно даже смещать таймкоды, очень быстро и удобно) Потом изи делила по предложениям все и текст и аудио (благодаря таймстепам)

Aigiz-K Автор вопроса
Ridge Kalman
Subtitle composer, редактор субтитров. У меня были...

у меня уже есть оригинальный текст. как раз не хочется тратить время на прослушивание 20+ часов. таймкоды распознанных слов то же есть. тут больше задача про то, как сопоставить эти два текста. тогда из распознанного можно просто перенести таймкоды на исходный текст

В такой ситуации надо однозначно править сырой аудиофайл, удаляя из него ошибки диктора.

Aigiz K
у меня уже есть оригинальный текст. как раз не хоч...

Тогда: 1. Берем первое предложение 2. Считаем в нем количество слов (например, N) 3. Идем с окном N слов по распознанным словам с таймстемпами 4. Для каждого окна считаем fuzz.ratio 5. Выбираем наиболее похожее окно, сравниваем его с каким-то трешолдом 6. Если выше трешолда - значит либо ASR не очень (на студийных виспер должен быть отличным), либо в оригинальном файле действительно нет нужного предложения 7. Если ниже трешолда - то мы нашли нужный участок в аудиозаписи, начало - start_time первого слова, конец - end_time последнего слова =)

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта