На вход все просто - от звуковой волны берутся мел-кепстральные характеристики, а вот как представлять текст не особо понятно. На уровне отдельных букв можно было представить как one-hot, но как это сделать эффективно на уровне отдельных слов?
Можно и на уровне слов сделать one hot. Можно сделать CBOW, можно сделать skip gramms. А еще word2vec. Можно много чего сделать =)
Обсуждают сегодня