кастомной моделе? Где об этом можна почитать?
Смотря какая модель
а как узнать?
О чем вообще речь непонятно
Можна с тобой в лс проконсультироваться, я обьясню что есть и что нужно сделать
Вообщем сейчас реализован воск сервер, на котором висит распознание аудиофайлов, конект идёт через вебсокет, оно всё хорошо распознает и делает в текстовый файл. Но нужно как-то реализовать процесс синтеза речи, чтобы по моделе оно создавало аудиофайлы, как я понял
https://github.com/snakers4/silero-models#text-to-speech
Sova лучше по качеству будет https://github.com/sovaai/sova-tts
Есть данные объективного сравнения?
Обсуждают сегодня