окей
мб там взяли обычную модель и выйграли за счет качества датасета
вот мой один из промптов Вы являетесь экспертом по исправлению текстов-транскрибаций аудиоразговоров. Вводные Данные: Текст представляет собой диалог м...
Привет. Ищу полезную инфу, подсказки или критику. Есть проект по ASR. На данных заказчика обкатали несколько SOTA ASR моделек, лучше всего себя показал Whisper Large V2. Из т...
Добрый день коллеги! Устанавливаю vosk вылетает ошибка. Как можно исправить ModuleNotFoundError: No module named '_ctypes' error: subprocess-exited-with-error? python3 --v...
Всем привет! Сижу пробую Vosk, и вижу что мне качество распознавания small модели не подходит. При качестве записи голосового в ТГ, записанного в тишине и близко к микрофону ...
Подскажите - кто встречал нормальный компресор для сжатия mp3 ? Чтобы один час весил около 10 мб ( очень мало )
Всем привет! Для обучения TTS модели я использую чистый Vits. Кто знает, с чем связана такая ситуация. Дан датасет: набор .wav файлов и соответствующий .csv файл. Перед обуче...
@frappuccino_o я обучаю Vits2 на основе твоих настроек. По сравнению в с Vits из piper обучение дольше происходит. ты сколько по времени обучал, чтоб получить 170k степ?
Всем привет. Можете, пожалуйста, объяснить, почему сейчас так популярен whisper, при том, что в оригинал оригинальной статье wer у него больше, чем у того же заоптимизированно...
Колллеги, кто имел дело с Open source системами для распознавания речи и текста? CMU Sphinx, Mozilla DeepSpeech, Kaldi нормально работают с русским языком? Возможно кому-то бу...
Добрый вечер! Подскажите пожалуйста, возможно ли работать с моделью распознавания речи Small vosk model (typically is around 50Mb in size and requires about 300Mb of memory in...
Обсуждают сегодня