большого аудио файла? Распознал весь аудиофайл и дал программе поручение: сохранить слово "привет" из этого файла отдельным аудиофайлом.
Ну да транскрибируйте аудио, и по слову и таймингу режьте аудио тем же ффмпегом
а какой хороший сервис прямо тайминг каждого слова хорошо вывести сможет?
А самому реализовать это на воск , о выше написали. Несложно ведь.
wav2vec умеет вплоть до букв. НО: если распознать без таймстампа, качество получается лучше. Как только таймстапы включаешь ,качество падает
А как временные метки на качество повлияли? Вы точно про wav2vec говорите?
да, сам удивился. вот сам код: logits = model(input_values).logits pred_ids = torch.argmax(logits, axis=-1) outputs = tokenizer.batch_decode(pred_ids, output_char_offsets=True,output_word_offsets=True) и logits = model(waveform).logits pred_ids = torch.argmax(logits, dim=-1)[0] pred_str = processor.decode(pred_ids)
я очень осторожно предположу, что у вас input_values и waveform - разные фичи
Обсуждают сегодня