как embedding features, как для слов, так и для допустим категориальных переменных https://www.tensorflow.org/programmers_guide/embedding
Вопрос вот в чем, хочу понять что это за формат представления такой EmbeddingColumn? создаётся sparse matrix, из неё embedding переменная, и кто что она? Вектор/тензор указанной в dim размерности? Каким алгоритмом оно размерность сокращает?...
Приду домой посмотрю
вообще, пожалуй, я туповат и не особо понял этот финт. единственное что я думаю это то что каждому слову соответствует какое-то число, а после tf.nn.embedding_lookup еще и каждому слову вектор. то что там что-то сокращает размер, я не понял
Эмбеддинг это общий концепт - мол у нас есть категориальная фича огромной размерности (слова), а мы из неё сделаем dense-вектора, которые можно скормить сетке. На странице нет ничего конкретного, только ссылка на туториал по обучению эмбеддинга для слов (https://www.tensorflow.org/tutorials/word2vec)
>Каким алгоритмом оно размерность сокращает?... How do the values in the embeddings vectors magically get assigned? Actually, the assignments happen during training. That is, the model learns the best way to map your input numeric categorical values to the embeddings vector value in order to solve your problem. Embedding columns increase your model's capabilities, since an embeddings vector learns new relationships between categories from the training data.
Обсуждают сегодня