главных компонент для снижения размерности признакового пространства (оставляйте 2-4 главных компонента, если они будут содержать 70-80% информации исходного набора признаков)
Да, проверял) отбрасываю коллинеарные. Там нюанс с тем, что много категориальных переменных. Порядка 90% всех предикторов. И, кстати, самих предикторов около сотни.
В этом случае линейная модель регрессии не применима. В силу преобладания категорийных признаков, у Вас нарушается условие нормальности распределения остатков, а это одно из ключевых требований Гаусса-Маркова к линейным моделям.
Обсуждают сегодня