у меня самособранный датасет, в нем описания товаров, всякие признаки и цены на них, вот если б задались выяснить - а от чего зависит цена (из этих предикторов) - то что бы делали?
ну вот линейная регрессия - тут понятно, но она не везде пригодна
а что еще можно сделать? в принципе не нужно получить прямо точную зависимость, но поведение цены - хотелось бы изучить... каким-нибудь хгбуст/рандомфорест + dalex, lime? или partial dependency plot использовать?
эх, да еще беда - текст, можно его в би или три-граммы и в tf-idf, потом в вектор для каждого объекта - но тогда переменных получится сильно (очень) больше кол-ва записей - по любому svd сжимать? правда тогда ничего будет не понять...
сильно не смейтесь )) но очень уж хочется попробовать по-аналитикствовать
Я бы попробовал для начала на кластеры разбить и посмотреть, как в каждом из них цена отличается
party::ctree для первого взгляда может сгодиться, ибо разбиает дерево на основе стат.значимости различий/связей.
Обсуждают сегодня