в каждой примерно ~ 500 разных значений
делаю one-hot-encodding, кодирую 0 и 1
Помимо этого есть еще 3 числовых предиката - по хорошему их надо как-то отскалировать, знаю два популярных способа: (x - min(x)) / (max(x) -min(x)) и (x - mean(x))/sd(x)
Влияют ли как-то переменные, полученные из one-hot encodding на выбор как нужно скалировать переменные?
извините за слово "скалировать", вылетело из головы, как сказать это по-русски
я где-то читал, что если у вас много dummy variables (не знаю, как переводится точно), то лучше делать min-max трансформацию, т.к. тогда количественная переменная будет в тех же пределах, что и категориальные (от 0 до 1). Хотя это не столь принципиально, главное, чтобы переменные были соразмерны
Обсуждают сегодня