с дисбалансов 1:150. Фичей 270шт. Подобрал в catboost class_weights=[1, 100] при котором f1=0.3. При этом если например ставить class_weights=[1, 150] то f1 резко падает до 0.1.
Но вопрос не про это. Когда я по feature_importance срезаю последние 50 или 100 фичей, то f1 так же падает до 0.1. Это какая-то не устойчивая модель или это норм вариант?
Сделайте предикты для всего набора. N раз возьмите подвыборки из K элементов через random.sample и на них посчитайте метрику. Постройте гистограмму где по иксу будут скоры, а по игрику их количество
Ещё осложняется, что у меня единиц всего 15000. Как мне кажется мало. А почему с фига фичами так? Это норм?
Всякое может быть, особенно зависит от параметров и выбросов в тесте. 15к действительно мало, это получется train + test?
Обсуждают сегодня