215 похожих чатов

Подскажите плз: Если на продакшне, баланс классов имеет соотношение 20-80, то

и на тренировочной выборке следует сохранять эту пропорцию? Или лучше сбалансировать?

8 ответов

9 просмотров

Кажется это больше вопрос метрик на трейне и тесте в полученной модели, но в целом сохранять пропорции звучит логично)

Artem Gruzdov
Кажется это больше вопрос метрик на трейне и тесте...

Курил как то форум. и там предложили теорию о том, что для задач классификации имеет смысл балансировать классы. типа чтобы сеточка лучше обучалась классифицировать. Для задач оценки вероятность это балансировка нежелательна) типа необходимо "сохранить вероятность и частоту появления класса" (с)

D!mad
Курил как то форум. и там предложили теорию о том,...

Тоже читал, что имеет смысл сохранять пропорции, но при этом для обучения использовать овер или андер семплинг. Вот есть даже целая библиотека с реализациями https://imbalanced-learn.org/stable/

🦦Али🦦- Автор вопроса
D!mad
Курил как то форум. и там предложили теорию о том,...

По моему опыту, при сильном дизбалансе, моделька отказывается прогнозировать score выше какого-то порога

Всё зависит от того, цена ошибки первого рода больше или ошибки второго рода

Imbalanced classifications pose a challenge for predictive modeling as most of the machine learning algorithms used for classification were designed around the assumption of an equal number of examples for each class. This results in models that have poor predictive performance, specifically for the minority class. This is a problem because typically, the minority class is more important and therefore the problem is more sensitive to classification errors for the minority class than the majority class (источник https://machinelearningmastery.com/what-is-imbalanced-classification/)

Я бы сделал 50/50 на train

🦦Али🦦- Автор вопроса
Roman Ralovets
Я бы сделал 50/50 на train

Влияет ли такой подход на калибровку модели?

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта