и разреженную матрицу TF-IDF?
Я почему- то боюсь, что при создании разреженной матрицы tfidf объекты перемешиваются, и после чего горизонтальная конкатенация будет неверна? Может я ошибаюсь, кто сталкивался?
грубо говоря у вас же не совсем матрица – её можно представить в виде датафрейма с номером строки, номером столбца и значением, соответственно, если у вас есть названия документов и названия термов вы можете подставить их в датафрейм, представляющий разряженную матрицу, и уже соединять два датафрейма обычным левым джоином
В разреженной матрице я буду знать имена столбцов ( слова) а как туда поместить имя документа? TiidfVectorizer не оставляет информации об имени документа, или это можно настроить, чтобы он оставлял такой столбец ?
это же просто индексы будут, попробуйте это проверить
Вот я и сомневаюсь, индексы в новой разреженной матрице также будут новыми, никак не связаны со старой таблицей объектов?
индексы для документов должны сохраняться; можете посмотреть на аргумент vocubalary в tfidfvectorizer, если вам нужно это проверить
вроде там есть scipy.sparse.hstack и это все объединить можно в один мешок
Все верно, есть такое, но тут вопрос не мешаются ли объекты при создании tfidf матрицы, если не мешаются, тогда и hstack можно использовать
Vocabulary разве не для всего корпуса строится? Он же не для одного текста
я правильно понял,что вы собираетесь к мешку слов добавить еще табличные признаки и дальше попробовать стандартные алгоритмы классификации?
ну тогда не понятно в чем вопрос? после sparse.hstack вы получите разреженную матрицу, но часть данных не разрежена. а тип данных все равно sparse.
Обсуждают сегодня