прогнозированием временных рядов, решил подойти к задаче со стороны feature engineering. Я нагенерил следующие фичи: разбил timestamp на номер года, номер месяца, номер дня в месяце, номер дня в году, номер дня в неделе, номер недели в году, т.к. прогнозирую на N шагов, сделал смещенный на N шагов ВР одной из фич (первые N строк удалил, чтобы NaNов не было, данных дофига, могу позволить), на данные этой фичи применил RBF функцию с разными параметрами мю и лямбда. Все это запульнул в Линейную регрессию и получил прогноз по качеству (MSE) +- сопоставимый с профетом, проверял на паре десятков кейсов.
Что думаете, просто повезло с данными или нормально так делать?
А разве законно в линрег использовать номер месяца и т. п. как фактор? Это же категориальный признак, нужно перекодировать же или перевести в бинарные, нет?)
Если использовать их как порядковые порядковые данные, то нет
Only xgboost can judge me
Ну типо для деревьев это вроде бы еще ок подход, но для линейных моделей это вне закона должно быть
для линейных есть сезонность, собственно так всякие sarimax и работают
Обсуждают сегодня