категориальный признак с n разными значениями методом one-hot encoding , принципиально делать n или n-1 фичей ?
Если n признаков, то n - фичей. Другое дело, что можно перекодировать и так, что будет всего 1 столбец.
А лучше делать target encoding вместо dummy/one-hot.
ну это зависит от данных, иногда и one-hot лучшие результаты может дать
https://towardsdatascience.com/dealing-with-categorical-variables-by-using-target-encoder-a0f1733a4c69 оно?
Можно сделать n-1 фич. Вопрос принципиально ли это , как для регрессий n или n-1 , или нет
а в чем принципиальность для регрессии? всегда делал n фичей)
Мультиколлинеарность и вот это всё.
Именно так в книге написано) поэтому и спросил
Мультиколлениарность раздувает дисперсию, в результате чего у статистика начинается депрессия коэффициенты модели становятся неадекватно большими/маленькими и не отражают "реальной" связи.
Что за книжка?
Обсуждают сегодня