26 похожих чатов

Embedded Group

Чат экстремального погром...

Android Architecture

DBA - русскоговорящее соо...

Unreal Engine

PostgreSQL + 1C + Linux

DevsHelper

SwiftBook

Вокруг да около Zigbee

Android Declarative

Atlassian Community - Rus...

Чат про Fusion 360 и 3D

Substance Painter & Desig...

pro.graphon (and gamedev)

Cinema 4D

Server Side Swift Develop...

ErlangRus

Распознавание и синтез ре...

Compiler Development

embedded.rs Въевшаяся Ржа...

pro.osdev - os developmen...

RUSCADASEC community: Киб...

Распознавание и синтез речи

Nikolay V. Shmyrev

> Подскажите, пожалуйста, как обычно (кроме метода тыка) выбирают количество

слоев енкодера и декодера в моделях распознавания речи (трансформер, конформеры и прочие rnn)?

Обычно выбирают методом тыка. Есть продвинутые алгоритмы вроде automl, байесовской оптимизации и генетических алгоритмов. Ими мало кто пользуется, потому что нужно много вычислений. В целом же надо тренировать насколько большую модель, насколько позволяют вычислительные ресурсы:

https://arxiv.org/pdf/2106.09488.pdf

> И когда необходимо добавлять слои к обученной модели, или это плохая практика?

смысла в этом большого нет

> Буду крайне признателен, если подскажете ресурс/источник по рекомендациям для обучения своих моделей (если такой есть), или как прийти к пониманию вопросов и ответов на них 🙏

Надо не рекомендации искать, а теорию изучать прежде всего

#it #russian #speech-recognition

20.10.2021

1 ответов

57 просмотров

Max

Спасибо!

22.10.2021

Похожие вопросы

Распознавание и синтез речи / Alexandr Korenev

вот мой один из промптов Вы являетесь экспертом по исправлению текстов-транскрибаций аудиоразговоров. Вводные Данные: Текст представляет собой диалог м...

#it #russian #speech-recognition

16.10.2023

7 ответов

Распознавание и синтез речи / Oleg Pavlovich

Привет. Ищу полезную инфу, подсказки или критику. Есть проект по ASR. На данных заказчика обкатали несколько SOTA ASR моделек, лучше всего себя показал Whisper Large V2. Из т...

#it #russian #speech-recognition

23.08.2023

9 ответов

Распознавание и синтез речи / Py

Добрый день коллеги! Устанавливаю vosk вылетает ошибка. Как можно исправить ModuleNotFoundError: No module named '_ctypes' error: subprocess-exited-with-error? python3 --v...

#it #russian #speech-recognition

06.06.2023

2 ответов

Распознавание и синтез речи / М

Всем привет! Сижу пробую Vosk, и вижу что мне качество распознавания small модели не подходит. При качестве записи голосового в ТГ, записанного в тишине и близко к микрофону ...

#it #russian #speech-recognition

01.06.2023

28 ответов

Распознавание и синтез речи / Олег Светов

Подскажите - кто встречал нормальный компресор для сжатия mp3 ? Чтобы один час весил около 10 мб ( очень мало )

#it #russian #speech-recognition

08.08.2023

24 ответов

Распознавание и синтез речи / Alexey Bazarov

Всем привет! Для обучения TTS модели я использую чистый Vits. Кто знает, с чем связана такая ситуация. Дан датасет: набор .wav файлов и соответствующий .csv файл. Перед обуче...

#it #russian #speech-recognition

04.09.2023

15 ответов

Распознавание и синтез речи / Aigiz K

@frappuccino_o я обучаю Vits2 на основе твоих настроек. По сравнению в с Vits из piper обучение дольше происходит. ты сколько по времени обучал, чтоб получить 170k степ?

#it #russian #speech-recognition

04.09.2023

19 ответов

Распознавание и синтез речи / P

Всем привет. Можете, пожалуйста, объяснить, почему сейчас так популярен whisper, при том, что в оригинал оригинальной статье wer у него больше, чем у того же заоптимизированно...

#it #russian #speech-recognition

12.05.2023

22 ответов

Распознавание и синтез речи / Veronika Zaslavskaya

Колллеги, кто имел дело с Open source системами для распознавания речи и текста? CMU Sphinx, Mozilla DeepSpeech, Kaldi нормально работают с русским языком? Возможно кому-то бу...

#it #russian #speech-recognition

01.11.2023

13 ответов

Распознавание и синтез речи / Oxana Steba

Добрый вечер! Подскажите пожалуйста, возможно ли работать с моделью распознавания речи Small vosk model (typically is around 50Mb in size and requires about 300Mb of memory in...

#it #russian #speech-recognition

12.10.2023

14 ответов

Смотреть еще

Распознавание и синтез речи