Размеры датасета укажи Выглядит так что тест/валидация просто маленькие Ну или у тебя в целом очень низкая связь с референсом (только около 0.2 имеют прямую связь)
Точно датасет очень мало всего 600+ семплов , как ты понял что мал ?
Ну вот, у тебя где-то порядка от 60 до 120 реально полезных семплов, остальное каша Такие рандомные разбросы вообще не удивительны на маленьких датасетах, особенно если random_state не фиксируешь
Так а какое ожидание поведение скора в зависимости от subsample , colsample ? (Если данных много) Типа куска параболы ? Или как ?
colsample вообще в целом не должен аффектить точность В первую очередь это шутка необходимая для ускорения обучения модели и может повлиять негативно\позитивно только если у тебя есть оверфит или андерфит, что намного лучше другими параметрами регулируется (в целом с уменьшением colsample нужно больше итераций, но они быстрее считаются, если количество фичей очень большое, до 20 фичей скорее всего не увидишь разницы) Советую почитать доку по этому поводу subsample опять же, может помочь в случае оверфита (особенно при большой глубине, по крайней мере как следует из доки) Но в целом, он опять же ускоряет обучение модели в 1/subsample раз
Обсуждают сегодня