так чтобы локально, для TTS понял что сейчас лучшие из бесплатных на русском - Silero TTS, возник вопрос - учитывая что они заявляют скорость быстрее real-time, могу ли я как-то стримить поток преобразованной речи? Т.к. если ждать до конца - получается большая задержка.
Если вопрос глупый - извиняюсь, с Python/Torch не имел никогда дела, весь опыт разработки на других языках и без проб в ML)
И если возможно - помогите плиз с выбором STT. Думал прикрутить Vosk, но вдруг есть что получше. (Можно и либы под другие языки)
https://t.me/speech_recognition_ru заходи с этим вопросом лучше сюда
Обсуждают сегодня