количество пикселей целевого класса наземного покрова, вычисленных для каждого геопространственного полигона (т.е. образцы в тренировочном наборе) разной площади. Разумеется, маленькие полигоны не могут содержать больше пикселей целевого класса наземного покрова, чем большие, поэтому я добавил площадь полигона как независимую переменную в модели. Первая модель имеет все предикторы, включительно из тем, эффекты которого я хочу проверить (радиационное заражение почвы), вторая - без радиации. Дисперсионный анализ моделей показывает p-value < 0.05, тобишь предиктор радиации является статистически значимым. Могу ли я быть уверен, что такой подход статистически отделяет эффект площади от эффекта радиации? Эффект площади, разумеется, прямо коррелирует с целевой переменной. Я отдельно построил модели для отфильтрованного датасета (до 50 % процентиля). Там min area = 0,5 гектара, max area = 90 гектаров. А медиана 1.3 га. Т.е. я уменьшил разброс площади к 0.5 до 1.3. И все равно эффект радиации остался значимым. Почему спрашиваю: результаты, мягко говоря, не особо логичны (более сильной радиации соответствует большее количество пикселей, т.е. лесного покрова).
вроде включение скоррелированых предикторов нарушает посылки, на которых строится регрессия Про все остальное проще говорить, когда покажете график рассеяния
Какая сумма квадратов используется? Включены ли взаимодействия факторов?
А как собирался датасет? Просто мысль «с полей» - прошлой осенью был как раз в Чернобыльской зоне после пожаров, площади лесов существенно изменяются из-за подобных факторов.
Обсуждают сегодня