в регрессионных моделях? Насколько важно для повышения точности количество признаков ?
по максу, но исключая коррелированные признаки
Я просто только начинаю. И не знаю, сотни признаков это слишком много? Или 100-200 могут быть?
смотря какая задача на самом деле. 100 наверное нагруженно как то
Понятно. А как их создавать в таком количестве? Все из головы? Или это уже включая разные преобразования типа poly ?
не надо создавать ниче. вы получайте вход и прогнозируйте
а у вас фич оригинальных сколько?
Не, ну определённый фичеинжениринг нужен, но в разумных пределах, конечно
У меня аналитическая задача. Фичи сам создаю . из основных - 3 метрики магазина. Предсказывается 4-ая метрика .
iris и без всяких фич инжинирингов работает прекрасно)
Попробуйте так модель написать
Количество предикторов вероятнее всего полезно чем больше тем лучше, если: распределение нормальное (с количеством столбцов вероятность падает); отсутствует коллинеарность (чем больше, тем меньше вероятность); вовремя распознает выбросы и аккуратно их удаляете. Выводы делайте сами.
я скажу за свой опыт. вся логика которую я заносил в синтетические датасеты в лучшем случае она и находилась.
Сделал но был очень низкий R*2 . добавил фичи связанные с характеристиками магазинов и R*2 стал 0.6 примерно. Но это же все равно мало?
раскажите подробнее пожалуйста
я в пору полной дикости баловался с кластеризацией. делал датасет больных. они у меня имели свои склонности к заболеваниям. кто то к простудам. кто то к давлению. потом я качал историю погоды и по некоторой логике у меня эти люди болели . потом я их кластеризовал. ну как бы да, те кто имели одинаковые склонности те попадали в одни кластеры. что вложил - то и получил
просто мне однажды сказали что плодить новую инфу из того что есть не имеет смысла и я поверил
я плодил из того чего не было)
а ну ок, тогда концепт правильынй
я выше все описал. создавал датасет, потом искал в нем зависимости. находил ровно то что заложил
Ну как... Для линрега имеют смысл всякие нелинейные преобразования. А для бустинга - нет :)
согласен с вами. речь шла просто о предположении что комбинация новых фич даст что то новое. тут же упирается в линеность нелинейность.
Ну вот для линейной модели это новое :)
да ладно. с точки зрения информации нет. но с точки зрения способности к аппроксимации да
Обсуждают сегодня