данных перед регрессией от "скоплений" . то есть когда в процессе сбора данных в некоторых точках не одна точка отмечалась а как бы дублировалась много раз с некоторой погрешностью , образуя "облачка" . В результате визуально зависимость проглядывается , но линия регрессии постоянно как будто "перекашивается" в сторону таких скоплений , то есть они некоторым точкам незаслуженно таким образом добавляют вес для модели. Как с этим бороться?
В Sklearn есть cluster с разными алгоритмами и описаниями в доках. Можно разобраться, но если лень можно просто попробовать разные и выбрать самые близкие к желаемому
Да я понимаю. Просто не понял идейно как можно кластеризацией решить
Обсуждают сегодня