и на тренировочной выборке следует сохранять эту пропорцию? Или лучше сбалансировать?
Кажется это больше вопрос метрик на трейне и тесте в полученной модели, но в целом сохранять пропорции звучит логично)
Курил как то форум. и там предложили теорию о том, что для задач классификации имеет смысл балансировать классы. типа чтобы сеточка лучше обучалась классифицировать. Для задач оценки вероятность это балансировка нежелательна) типа необходимо "сохранить вероятность и частоту появления класса" (с)
Тоже читал, что имеет смысл сохранять пропорции, но при этом для обучения использовать овер или андер семплинг. Вот есть даже целая библиотека с реализациями https://imbalanced-learn.org/stable/
По моему опыту, при сильном дизбалансе, моделька отказывается прогнозировать score выше какого-то порога
Всё зависит от того, цена ошибки первого рода больше или ошибки второго рода
Imbalanced classifications pose a challenge for predictive modeling as most of the machine learning algorithms used for classification were designed around the assumption of an equal number of examples for each class. This results in models that have poor predictive performance, specifically for the minority class. This is a problem because typically, the minority class is more important and therefore the problem is more sensitive to classification errors for the minority class than the majority class (источник https://machinelearningmastery.com/what-is-imbalanced-classification/)
Я бы сделал 50/50 на train
Влияет ли такой подход на калибровку модели?
Обсуждают сегодня