26 похожих чатов

Чат экстремального погром...

Android Architecture

DBA - русскоговорящее соо...

PostgreSQL + 1C + Linux

Вокруг да около Zigbee

Android Declarative

Atlassian Community - Rus...

Чат про Fusion 360 и 3D

Substance Painter & Desig...

pro.graphon (and gamedev)

Server Side Swift Develop...

Распознавание и синтез ре...

Compiler Development

embedded.rs Въевшаяся Ржа...

pro.osdev - os developmen...

RUSCADASEC community: Киб...

Распознавание и синтез речи

Здравствуйте! Подскажите куда смотреть (модели опенсорс, локальное некоммерческое использование): 1

задача speech to text. Записи звонков по телефону (русский). Я так понимаю надо смотреть в сторону: vosk ,fairsec.
2 задача выделить из диалога двух говорящих абонентов и построить ембединг их голосов, с целью дальнейшего поиска похожих голосов. Что посоветуете?

#it #russian #speech-recognition

0

27.05.2023

5 ответов

35 просмотров

Nikolay V. Shmyrev

по голосам очень тяжело разделять людей, лучше эту идею отбросить 😉

0

27.05.2023

для второй задачи wavLM вроде неплох. Ну, насколько это возможно вообще)

0

27.05.2023

Hubert умеет строить эмбеддинг спикера, можно потестировать

0

27.05.2023

Nikolay V. Shmyrev
по голосам очень тяжело разделять людей, лучше эту...

а как вот эти господа справляются по вашему? указанные error rates очень приятные https://github.com/pyannote/pyannote-audio

0

28.05.2023

Nikolay V. Shmyrev

vvv
а как вот эти господа справляются по вашему? указа...

Это для качественных записей для телефона все гораздо хуже

0

28.05.2023

Похожие вопросы

Распознавание и синтез речи / Alexandr Korenev

Подписаться

вот мой один из промптов Вы являетесь экспертом по исправлению текстов-транскрибаций аудиоразговоров. Вводные Данные: Текст представляет собой диалог м...

#it #russian #speech-recognition

16.10.2023

0

7 ответов

Распознавание и синтез речи / Oleg Pavlovich

Подписаться

Привет. Ищу полезную инфу, подсказки или критику. Есть проект по ASR. На данных заказчика обкатали несколько SOTA ASR моделек, лучше всего себя показал Whisper Large V2. Из т...

#it #russian #speech-recognition

23.08.2023

0

9 ответов

Распознавание и синтез речи / Py

Подписаться

Добрый день коллеги! Устанавливаю vosk вылетает ошибка. Как можно исправить ModuleNotFoundError: No module named '_ctypes' error: subprocess-exited-with-error? python3 --v...

#it #russian #speech-recognition

06.06.2023

0

2 ответов

Распознавание и синтез речи / М

Подписаться

Всем привет! Сижу пробую Vosk, и вижу что мне качество распознавания small модели не подходит. При качестве записи голосового в ТГ, записанного в тишине и близко к микрофону ...

#it #russian #speech-recognition

01.06.2023

0

28 ответов

Распознавание и синтез речи / Олег Светов

Подписаться

Подскажите - кто встречал нормальный компресор для сжатия mp3 ? Чтобы один час весил около 10 мб ( очень мало )

#it #russian #speech-recognition

08.08.2023

0

24 ответов

Распознавание и синтез речи / Alexey Bazarov

Подписаться

Всем привет! Для обучения TTS модели я использую чистый Vits. Кто знает, с чем связана такая ситуация. Дан датасет: набор .wav файлов и соответствующий .csv файл. Перед обуче...

#it #russian #speech-recognition

04.09.2023

0

15 ответов

Распознавание и синтез речи / Aigiz K

Подписаться

@frappuccino_o я обучаю Vits2 на основе твоих настроек. По сравнению в с Vits из piper обучение дольше происходит. ты сколько по времени обучал, чтоб получить 170k степ?

#it #russian #speech-recognition

04.09.2023

0

19 ответов

Распознавание и синтез речи / P

Подписаться

Всем привет. Можете, пожалуйста, объяснить, почему сейчас так популярен whisper, при том, что в оригинал оригинальной статье wer у него больше, чем у того же заоптимизированно...

#it #russian #speech-recognition

12.05.2023

0

22 ответов

Распознавание и синтез речи / Veronika Zaslavskaya

Подписаться

Колллеги, кто имел дело с Open source системами для распознавания речи и текста? CMU Sphinx, Mozilla DeepSpeech, Kaldi нормально работают с русским языком? Возможно кому-то бу...

#it #russian #speech-recognition

01.11.2023

0

13 ответов

Распознавание и синтез речи / Oxana Steba

Подписаться

Добрый вечер! Подскажите пожалуйста, возможно ли работать с моделью распознавания речи Small vosk model (typically is around 50Mb in size and requires about 300Mb of memory in...

#it #russian #speech-recognition

12.10.2023

0

14 ответов

Смотреть еще

Распознавание и синтез речи

Подписаться

Вопросов 736

Ответов 2106

Участников 2348

Telegram @speech_recognition_ru

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...

Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...

длина пакета фиксированная, или меняется?

Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...

А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?

https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...

Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...

Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...

Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...

сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?

Александра Чернивецкая

Карта сайта