Ребят, привет, кто знает как корректно сконкатить датафрейм с фичами

Question

Ребят, привет, кто знает как корректно сконкатить датафрейм с фичами

и разреженную матрицу TF-IDF?
Я почему- то боюсь, что при создании разреженной матрицы tfidf объекты перемешиваются, и после чего горизонтальная конкатенация будет неверна? Может я ошибаюсь, кто сталкивался?

#programming #python #russian

0

17.12.2021

11 ответов

65 просмотров

Артур Вологда Автор вопроса

Makar Minchenko
грубо говоря у вас же не совсем матрица – её можно...

В разреженной матрице я буду знать имена столбцов ( слова) а как туда поместить имя документа? TiidfVectorizer не оставляет информации об имени документа, или это можно настроить, чтобы он оставлял такой столбец ?

0

17.12.2021

Makar Minchenko

Артур Вологда
В разреженной матрице я буду знать имена столбцов ...

это же просто индексы будут, попробуйте это проверить

0

17.12.2021

Артур Вологда Автор вопроса

Makar Minchenko
это же просто индексы будут, попробуйте это провер...

Вот я и сомневаюсь, индексы в новой разреженной матрице также будут новыми, никак не связаны со старой таблицей объектов?

0

17.12.2021

Makar Minchenko

Артур Вологда
Вот я и сомневаюсь, индексы в новой разреженной ма...

индексы для документов должны сохраняться; можете посмотреть на аргумент vocubalary в tfidfvectorizer, если вам нужно это проверить

0

17.12.2021

Pavel Zheltouhov

Артур Вологда
Вот я и сомневаюсь, индексы в новой разреженной ма...

вроде там есть scipy.sparse.hstack и это все объединить можно в один мешок

0

17.12.2021

Артур Вологда Автор вопроса

Pavel Zheltouhov
вроде там есть scipy.sparse.hstack и это все объед...

Все верно, есть такое, но тут вопрос не мешаются ли объекты при создании tfidf матрицы, если не мешаются, тогда и hstack можно использовать

0

17.12.2021

Артур Вологда Автор вопроса

Makar Minchenko
индексы для документов должны сохраняться; можете ...

Vocabulary разве не для всего корпуса строится? Он же не для одного текста

0

17.12.2021

Pavel Zheltouhov

Артур Вологда
Все верно, есть такое, но тут вопрос не мешаются л...

я правильно понял,что вы собираетесь к мешку слов добавить еще табличные признаки и дальше попробовать стандартные алгоритмы классификации?

0

17.12.2021

Артур Вологда Автор вопроса

Pavel Zheltouhov
я правильно понял,что вы собираетесь к мешку слов...

Да, верно

0

17.12.2021

Pavel Zheltouhov

Артур Вологда
Да, верно

ну тогда не понятно в чем вопрос? после sparse.hstack вы получите разреженную матрицу, но часть данных не разрежена. а тип данных все равно sparse.

0

17.12.2021

Makar Minchenko · Accepted Answer

грубо говоря у вас же не совсем матрица – её можно представить в виде датафрейма с номером строки, номером столбца и значением, соответственно, если у вас есть названия документов и названия термов вы можете подставить их в датафрейм, представляющий разряженную матрицу, и уже соединять два датафрейма обычным левым джоином

169 похожих чатов

Ребят, привет, кто знает как корректно сконкатить датафрейм с фичами

11 ответов

Похожие вопросы