регрессия с N предикторами.
Собственно этот вопрос мало где освещается, кроме рекомендаций использовать Лассо и Ридж регрессии в целях регуляризации. Ну, окей. А есть ли способ проверить что конкретно моя простая линейная регрессия с N слагаемыми переобучена в данный момент, кроме как чекнуть ошибку на тестовом и трениров. датасетах?
Корни проблемы : мало данных, число предикторов сравнимо с числом строк и поэтому не хочется резать данные на тест/траин, может быть есть другой способ понять, переобучена ли модель. Может она ваще не переобучается? Или, скажем рекурсивный отбор фич до тех пор пока для всех будет выполняться критерий a<0.05 помогает избежать переобучения.
Игорь, добрый день. У Вас два варианта: 1) Рекуррентный МНК; 2) Метод пошаговой регрессии в двух вариациях (последовательное включение регрессоров в модель в порядке значимости коэффициентов или последовательное исключение наименее значимых). Продолжать до тех пор, пока не перестанет расти скорректированный R^2
Большое спасибо. Про реккурентный МНК не слышал, вторым способом пользуюсь, но исключаю регрессоры до тех пор, пока не останутся только значимые. Подумаю над вашей идеей. Буду благодарен за источники)
Попробуйте всё-таки сначала добавлять регрессоры
https://ru.m.wikipedia.org/wiki/%D0%A0%D0%B5%D0%BA%D1%83%D1%80%D1%81%D0%B8%D0%B2%D0%BD%D1%8B%D0%B9_%D0%9C%D0%9D%D0%9A В принципе, в Википедии все хорошо написано
Обсуждают сегодня