50?
модель оверфитить будет на простых моделях типо decision tree, поэтому
а можно вернуться к теме ребаланса классов? для тех, кто в танке: почему не нужно уравнивать классы? возьмем некоторый граничный датасет, в котором 100 вхождений одного класса приходится на 1 вхождение другого. тогда модель может и без обучения фигачить предсказание 1 класса, но ведь всем же очевидно, что мы будем получать высокий False positive? с accuracy будет все отлично, но эта метрика бесполезна в задачах с неравными классами recall будет очень высоким, а вот accuracy - страдать. итак, возвращаясь к самому началу: а почему классы можно не балансировать?
Писали же, что в реальных данных классы тоже несбалансированы, а следовательно, балансить их в трейне – плохо
и что, что несбалансированы? поправьте меня, если я не прав: 1 класс - 100 штук примеров 2 класс - 1 пример модели проще всегда лупить “1 класс”, нет? но это же не правильно )
А что значит модель будет? Ведь мы настраиваем лог лосс, к примеру. Да, ему выгодней сделать вероятности для доминирующего класса как можно больше, согласен, но ведь и на малом классе он даст вероятность, но очень малую только. Так вот, теперь что модель будет давать на выходе, какой класс то есть, зависит, как я написал выше, от порога отнесения к классу 1. Этот порог выбираете вы, основываясь на трейн, берете его малым, вот и всё. Дальше просто модель работает с этим порогом всегда.
Обсуждают сегодня