Есть записи длинные по минуте-две на русском с расшифровками, телефония.

Хотелось бы шинкануть их на записи по <=20-25 секунд.

В принципе склоняюсь к варианту вручную разбить, но вдруг есть какая-то моделька/алгоритм готовые для подобного?

Как вижу, тут проблемы две:
- Надо бить по паузам, чтобы слово не залетало на границу (видимо, с VAD)
- Надо алайнить разметку с полученными отрезками заново

Отсюда два вопроса:
- Есть что посоветовать для ручной разметки быстренько такой штуки? (с аудио-редакторами особо не работал)
- Есть ли что-то, что автоматически такую задачу решает?

Заранее спасибо!

3 ответов

21 просмотр

Вот пример кода на питоне с помощью библиотеки pydub from pydub import AudioSegment from pydub.silence import split_on_silence from pydub import AudioSegment def split_audio_with_max_duration(input_file, output_directory, min_silence_len=2500, silence_thresh=-60, max_chunk_duration=15000): sound = AudioSegment.from_wav(input_file) # Splitting on silence audio_chunks = split_on_silence(sound, min_silence_len=min_silence_len, silence_thresh=silence_thresh) # split for max_chunk_duration final_audio_chunks = [] for chunk in audio_chunks: if len(chunk) > max_chunk_duration: num_subchunks = len(chunk) // max_chunk_duration + 1 subchunk_size = len(chunk) // num_subchunks for i in range(num_subchunks): start_idx = i * subchunk_size end_idx = (i + 1) * subchunk_size subchunk = chunk[start_idx:end_idx] final_audio_chunks.append(subchunk) else: final_audio_chunks.append(chunk) # Export wav for i, chunk in enumerate(final_audio_chunks): output_file = f"{output_directory}/chunk{i}.wav" print("Exporting file", output_file) chunk.export(output_file, format="wav") input_audio_file = "/content/seamless_communication/audio.wav" output_directory = "/content/seamless_communication/split_segments" split_audio_with_max_duration(input_audio_file, output_directory)

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта