Эти модели вообще превращают в вектор не текст целиком, а каждое слово по отдельности. Мы можем, конечно, текст из 100 слов представить как матрицу из 100 векторов, но весить они будут явно больше) Ну и если слово out-of-vocabulary, то w2v вообще его превратить в нетривиальный вектор не сможет, а fasttext хоть и сможет, но восстанавливать слово назад по вектору будет непросто.
кстати, если решат одну из задач тысячелетия, про нетривиальные нули дзета-функции, вполне возможно Войну и Мир можно будет запаковывать - и фарш в обратную сторону провернуть)
Обсуждают сегодня