Подскажите плз: Если на продакшне, баланс классов имеет соотношение 20-80, то

Question

Data Science Chat

🦦Али🦦

Подскажите плз: Если на продакшне, баланс классов имеет соотношение 20-80, то

и на тренировочной выборке следует сохранять эту пропорцию? Или лучше сбалансировать?

#database #programming #russian #software

0

15.04.2022

8 ответов

9 просмотров

D!mad

Artem Gruzdov
Кажется это больше вопрос метрик на трейне и тесте...

Курил как то форум. и там предложили теорию о том, что для задач классификации имеет смысл балансировать классы. типа чтобы сеточка лучше обучалась классифицировать. Для задач оценки вероятность это балансировка нежелательна) типа необходимо "сохранить вероятность и частоту появления класса" (с)

0

15.04.2022

Artem Gruzdov

D!mad
Курил как то форум. и там предложили теорию о том,...

Тоже читал, что имеет смысл сохранять пропорции, но при этом для обучения использовать овер или андер семплинг. Вот есть даже целая библиотека с реализациями https://imbalanced-learn.org/stable/

0

15.04.2022

🦦Али🦦 Автор вопроса

D!mad
Курил как то форум. и там предложили теорию о том,...

По моему опыту, при сильном дизбалансе, моделька отказывается прогнозировать score выше какого-то порога

0

15.04.2022

Ruslan Akhmetvaleev

Всё зависит от того, цена ошибки первого рода больше или ошибки второго рода

0

15.04.2022

Roman Ralovets

Imbalanced classifications pose a challenge for predictive modeling as most of the machine learning algorithms used for classification were designed around the assumption of an equal number of examples for each class. This results in models that have poor predictive performance, specifically for the minority class. This is a problem because typically, the minority class is more important and therefore the problem is more sensitive to classification errors for the minority class than the majority class (источник https://machinelearningmastery.com/what-is-imbalanced-classification/)

0

15.04.2022

Roman Ralovets

Я бы сделал 50/50 на train

0

15.04.2022

🦦Али🦦 Автор вопроса

Roman Ralovets
Я бы сделал 50/50 на train

Влияет ли такой подход на калибровку модели?

0

15.04.2022