26 похожих чатов

Чат экстремального погром...

Android Architecture

DBA - русскоговорящее соо...

PostgreSQL + 1C + Linux

Вокруг да около Zigbee

Android Declarative

Atlassian Community - Rus...

Чат про Fusion 360 и 3D

Substance Painter & Desig...

pro.graphon (and gamedev)

Server Side Swift Develop...

Распознавание и синтез ре...

Compiler Development

embedded.rs Въевшаяся Ржа...

pro.osdev - os developmen...

RUSCADASEC community: Киб...

Распознавание и синтез речи

Дениз Синджар

Всем привет. Можно ли как-нибудь вычленить записи отдельных слов из

большого аудио файла? Распознал весь аудиофайл и дал программе поручение: сохранить слово "привет" из этого файла отдельным аудиофайлом.

#it #russian #speech-recognition

0

05.06.2023

8 ответов

54 просмотра

Ну да транскрибируйте аудио, и по слову и таймингу режьте аудио тем же ффмпегом

0

05.06.2023

Дениз Синджар Автор вопроса

а какой хороший сервис прямо тайминг каждого слова хорошо вывести сможет?

0

05.06.2023

Дениз Синджар
а какой хороший сервис прямо тайминг каждого слова...

Vosk)

0

05.06.2023

Дениз Синджар
а какой хороший сервис прямо тайминг каждого слова...

А самому реализовать это на воск , о выше написали. Несложно ведь.

0

05.06.2023

Дениз Синджар
а какой хороший сервис прямо тайминг каждого слова...

wav2vec умеет вплоть до букв. НО: если распознать без таймстампа, качество получается лучше. Как только таймстапы включаешь ,качество падает

0

05.06.2023

Aigiz K
wav2vec умеет вплоть до букв. НО: если распознать...

А как временные метки на качество повлияли? Вы точно про wav2vec говорите?

0

05.06.2023

Anton
А как временные метки на качество повлияли? Вы точ...

да, сам удивился. вот сам код: logits = model(input_values).logits pred_ids = torch.argmax(logits, axis=-1) outputs = tokenizer.batch_decode(pred_ids, output_char_offsets=True,output_word_offsets=True) и logits = model(waveform).logits pred_ids = torch.argmax(logits, dim=-1)[0] pred_str = processor.decode(pred_ids)

0

05.06.2023

Алексей Гусев

Aigiz K
да, сам удивился. вот сам код: logits = model(inpu...

я очень осторожно предположу, что у вас input_values и waveform - разные фичи

0

05.06.2023

Похожие вопросы

Распознавание и синтез речи / Alexandr Korenev

Подписаться

вот мой один из промптов Вы являетесь экспертом по исправлению текстов-транскрибаций аудиоразговоров. Вводные Данные: Текст представляет собой диалог м...

#it #russian #speech-recognition

16.10.2023

0

7 ответов

Распознавание и синтез речи / Oleg Pavlovich

Подписаться

Привет. Ищу полезную инфу, подсказки или критику. Есть проект по ASR. На данных заказчика обкатали несколько SOTA ASR моделек, лучше всего себя показал Whisper Large V2. Из т...

#it #russian #speech-recognition

23.08.2023

0

9 ответов

Распознавание и синтез речи / Py

Подписаться

Добрый день коллеги! Устанавливаю vosk вылетает ошибка. Как можно исправить ModuleNotFoundError: No module named '_ctypes' error: subprocess-exited-with-error? python3 --v...

#it #russian #speech-recognition

06.06.2023

0

2 ответов

Распознавание и синтез речи / М

Подписаться

Всем привет! Сижу пробую Vosk, и вижу что мне качество распознавания small модели не подходит. При качестве записи голосового в ТГ, записанного в тишине и близко к микрофону ...

#it #russian #speech-recognition

01.06.2023

0

28 ответов

Распознавание и синтез речи / Олег Светов

Подписаться

Подскажите - кто встречал нормальный компресор для сжатия mp3 ? Чтобы один час весил около 10 мб ( очень мало )

#it #russian #speech-recognition

08.08.2023

0

24 ответов

Распознавание и синтез речи / Alexey Bazarov

Подписаться

Всем привет! Для обучения TTS модели я использую чистый Vits. Кто знает, с чем связана такая ситуация. Дан датасет: набор .wav файлов и соответствующий .csv файл. Перед обуче...

#it #russian #speech-recognition

04.09.2023

0

15 ответов

Распознавание и синтез речи / Aigiz K

Подписаться

@frappuccino_o я обучаю Vits2 на основе твоих настроек. По сравнению в с Vits из piper обучение дольше происходит. ты сколько по времени обучал, чтоб получить 170k степ?

#it #russian #speech-recognition

04.09.2023

0

19 ответов

Распознавание и синтез речи / P

Подписаться

Всем привет. Можете, пожалуйста, объяснить, почему сейчас так популярен whisper, при том, что в оригинал оригинальной статье wer у него больше, чем у того же заоптимизированно...

#it #russian #speech-recognition

12.05.2023

0

22 ответов

Распознавание и синтез речи / Veronika Zaslavskaya

Подписаться

Колллеги, кто имел дело с Open source системами для распознавания речи и текста? CMU Sphinx, Mozilla DeepSpeech, Kaldi нормально работают с русским языком? Возможно кому-то бу...

#it #russian #speech-recognition

01.11.2023

0

13 ответов

Распознавание и синтез речи / Oxana Steba

Подписаться

Добрый вечер! Подскажите пожалуйста, возможно ли работать с моделью распознавания речи Small vosk model (typically is around 50Mb in size and requires about 300Mb of memory in...

#it #russian #speech-recognition

12.10.2023

0

14 ответов

Смотреть еще

Распознавание и синтез речи

Подписаться

Вопросов 736

Ответов 2106

Участников 2348

Telegram @speech_recognition_ru

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...

Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...

длина пакета фиксированная, или меняется?

Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...

А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?

https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...

Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...

Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...

Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...

сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?

Александра Чернивецкая

Карта сайта