не менее не набирается нужный скор.
На вход дают непререрывные и категориальные фичи. Категориальные фичи я перевел в вектора при помощи one hot encoding. Хочу улучшить скор при помощи feature engineering, подскажите пожалуйста будет ли корректно перемножать непрерывные и категориальные фичи между собой, нормализовать и добавить их в датасет?
Привет, если логическая зависимость есть между непрерывными и категориальными фичами, то да, фича инжиниринг по идее поможет. Но! хорошо бы сделать кросс-валидацию. Ибо можно не улучшить, а даже ухудшить скор. А, ну ещё хорошо бы нормализовать и стандартизировать всю дату перед использованием в модели. Потому что некоторые алгоритмы могут внезапно быть очень чувствительными, и с хорошей нормализацией можно тоже улучшить скор
Супер, спасибо. Я же правильно понимаю что если мы логически поперемножали фичи, то нормализовать уже нужно после комибнации фичей между собой, а не до? То есть допустим были ненормализованный фичи f_1, f_2, f_3 и f_1 логически связано с f_3. Тогда мы сначала перемножаем f_1 с f_3, получаем набор фичей f_1, f_2, f_3, f_1f_3 и только после этого нормализуем (тот же z-score normalization)?
Всё верно, нормализация - после новых комбинированных фич.
Спааасибо :) Да, вот еще вопрос появился, если не указана суть фичей и они даны в обезличенном виде (просто feature1, feature2, …, featureN), то тут особо feature engineering не применить?
Обсуждают сегодня