на тренировку модели?
Тестирую 2 варианта, различие только в том что в одном варианте pool создаю без group_id а во втором с group_id.
Бинарная классификация, CatBoostClassifier
Val ROC_AUC в первом случае 0.87
во втором 0.89
Данных много, то есть это не случайность связанная с трейном на GPU.
model.get_all_params() - сходятся 1 в 1
group_id добалял чтоб отслеживать и ранкинговые метрики тоже
привет! group id — это про ранжирование, на классификацию не влияет
Да вот и я так думал) Но уезжают все метрики, и логлосс и аук.
по числу деревьев модели одинаковой длины? группы могут влиять, если поставить эвал метрику ранжирующего типа если нужно только наблюдать ранжирующие метрики, то нужно передавать их через custom_metrics ну, и обучить-сравнить 10 моделей с разными сидами и/или кросс-валидацию сделать
Модели одинаковые и по числу деревьев тоже. Тестирую вот так: "eval_metric": "AUC", "custom_metric": ["Logloss", "AUC", "PRAUC"] на 10 сидах AUC min, mean, max: (0.8879694938659668, 0.8883961975574494, 0.8886796534061432) (0.8473901450634003, 0.8725292295217514, 0.8821778893470764) Хуже, когда генеришь пул с group_id.
Модели одинаковые и по числу деревьев тоже. Тестирую вот так: "eval_metric": "AUC", "custom_metric": ["Logloss", "AUC", "PRAUC"] на 10 сидах AUC min, mean, max: (0.8879694938659668, 0.8883961975574494, 0.8886796534061432) (0.8473901450634003, 0.8725292295217514, 0.8821778893470764) Хуже, когда генеришь пул с group_id.
group_id как фича в пул без указаний group_id случайно не проливается?
выглядит неочевидно какое качество получается, если сделать group_id = range(0, sample_count)? типа, группы есть, но все одноэлементные? есть ли в датасете катфичи?
С одноэлементными группами качество такое-же как и без групп. Катфичи есть. По одной из них как раз строил группы.
Обсуждают сегодня