) для обучения модели ? https://github-com.translate.goog/qiuqiangkong/audioset_tagging_cnn?_x_tr_sl=en&_x_tr_tl=ru&_x_tr_hl=ru&_x_tr_pto=sc
а это ? ( ... AudioTagging 2. Архитектура системы Идеальным решением при проектировании системы автоматической разметки аудиоданных будет пайплайн, состоящий из VAD(Voice Active Detection), ASR(Automatic Speech Recognition) и AudioTagging моделей. 3. VAD Для реализации рассматриваемой задачи прежде всего необходимо получить возможность извлекать из входного аудиопотока речь, отбрасывая компоненты к ней не относящиеся. Таковыми могут быть затяжные паузы, фоновые шумы, смех, кашель и т.д. Для обучения VAD модели обучающие данные должны включать в себя как минимум два класса: речь и не-речь. Общее количество данных небольшое, около 15-20 часов. Однако в результате проведенных экспериментов было выявлено, что деления на 2 класса недостаточно, процент ошибки у модели весьма высок. В связи с чем было принято решение сформировать три класса данных: Speech, background noise, silence. ) https://github.com/topics/audio-tagging
https://github.com/k2-fsa/text_search
это поможет ?
Обсуждают сегодня