А зачем сравнять? на реальных данных они будут 50 на

Question

Data Science Chat

Ibp

А зачем сравнять? на реальных данных они будут 50 на

50?

#database #programming #russian #software

0

14.12.2020

5 ответов

37 просмотров

Сергей Ильин

а можно вернуться к теме ребаланса классов? для тех, кто в танке: почему не нужно уравнивать классы? возьмем некоторый граничный датасет, в котором 100 вхождений одного класса приходится на 1 вхождение другого. тогда модель может и без обучения фигачить предсказание 1 класса, но ведь всем же очевидно, что мы будем получать высокий False positive? с accuracy будет все отлично, но эта метрика бесполезна в задачах с неравными классами recall будет очень высоким, а вот accuracy - страдать. итак, возвращаясь к самому началу: а почему классы можно не балансировать?

0

14.12.2020

Valerii

Сергей Ильин
а можно вернуться к теме ребаланса классов? для т...

Писали же, что в реальных данных классы тоже несбалансированы, а следовательно, балансить их в трейне – плохо

0

14.12.2020

Сергей Ильин

Valerii
Писали же, что в реальных данных классы тоже несба...

и что, что несбалансированы? поправьте меня, если я не прав: 1 класс - 100 штук примеров 2 класс - 1 пример модели проще всегда лупить “1 класс”, нет? но это же не правильно )

0

14.12.2020

Артём Глазунов

Сергей Ильин
и что, что несбалансированы? поправьте меня, если...

А что значит модель будет? Ведь мы настраиваем лог лосс, к примеру. Да, ему выгодней сделать вероятности для доминирующего класса как можно больше, согласен, но ведь и на малом классе он даст вероятность, но очень малую только. Так вот, теперь что модель будет давать на выходе, какой класс то есть, зависит, как я написал выше, от порога отнесения к классу 1. Этот порог выбираете вы, основываясь на трейн, берете его малым, вот и всё. Дальше просто модель работает с этим порогом всегда.

0

14.12.2020

Islom Babaev · Accepted Answer

Islom Babaev

модель оверфитить будет на простых моделях типо decision tree, поэтому

0

14.12.2020

215 похожих чатов

А зачем сравнять? на реальных данных они будут 50 на

5 ответов

Похожие вопросы