(условно, по 4000 байт) и переводить их в семплы: [wavfile.read(BytesIO(i)) for i in stream_gen(test)]. Вылетает такая ошибка: ValueError: File format b'\x18\x00\x08\x00' not understood. Only 'RIFF' and 'RIFX' supported. Я правильно понимаю, что чтобы сделать потоковое распознавание нужно на стороне сервиса запоминать заголовок (или самому формировать) и приписывать каждому приходящему чанку, чтобы избегать этой ошибки и получать семплы?
wavfile для потока не нужен, можно просто читать байты
Мне espnet==0.10.6 такое пишет, если байты передаю: TypeError: type of argument "speech" must be one of (torch.Tensor, numpy.ndarray); got bytes instead. Не подскажите, что в таком случае можно или правильнее сделать?
https://numpy.org/doc/stable/reference/generated/numpy.frombuffer.html
Спасибо! Так отрабатывает: [speech2text_s(speech=np.frombuffer(i, dtype=np.float32), is_final=False) for i in stream_gen(test)]. Но все предикты nan. И часть значений из данной функции возвращается nan: np.frombuffer(speech1, dtype=np.float32) - мб не так что-то делаю?
dtype обычно int16 у wav файла
Обсуждают сегодня