215 похожих чатов

Подскажите плз: Если на продакшне, баланс классов имеет соотношение 20-80, то

и на тренировочной выборке следует сохранять эту пропорцию? Или лучше сбалансировать?

8 ответов

6 просмотров

Кажется это больше вопрос метрик на трейне и тесте в полученной модели, но в целом сохранять пропорции звучит логично)

Artem Gruzdov
Кажется это больше вопрос метрик на трейне и тесте...

Курил как то форум. и там предложили теорию о том, что для задач классификации имеет смысл балансировать классы. типа чтобы сеточка лучше обучалась классифицировать. Для задач оценки вероятность это балансировка нежелательна) типа необходимо "сохранить вероятность и частоту появления класса" (с)

D!mad
Курил как то форум. и там предложили теорию о том,...

Тоже читал, что имеет смысл сохранять пропорции, но при этом для обучения использовать овер или андер семплинг. Вот есть даже целая библиотека с реализациями https://imbalanced-learn.org/stable/

🦦Али🦦- Автор вопроса
D!mad
Курил как то форум. и там предложили теорию о том,...

По моему опыту, при сильном дизбалансе, моделька отказывается прогнозировать score выше какого-то порога

Всё зависит от того, цена ошибки первого рода больше или ошибки второго рода

Imbalanced classifications pose a challenge for predictive modeling as most of the machine learning algorithms used for classification were designed around the assumption of an equal number of examples for each class. This results in models that have poor predictive performance, specifically for the minority class. This is a problem because typically, the minority class is more important and therefore the problem is more sensitive to classification errors for the minority class than the majority class (источник https://machinelearningmastery.com/what-is-imbalanced-classification/)

Я бы сделал 50/50 на train

🦦Али🦦- Автор вопроса
Roman Ralovets
Я бы сделал 50/50 на train

Влияет ли такой подход на калибровку модели?

Похожие вопросы

Обсуждают сегодня

А как старый хаскел с новым стыковать ? потому как тут работает https://play.haskell.org/saved/C3xpMzcd, а вот тут https://stepik.org/lesson/7602/step/9?unit=1473 нет ошибка C...
Fedor
131
Вопрос я правильно понимаю что в коде newtype ArrowMap k v = ArrowMap { getArrowMap :: k -> Maybe v } getArrowMap есть функция типа k -> Maybe v, если да, то не понимаю задач...
Fedor
64
Как Вы считаете нормально ли в двадцатых годах 21 века в ВУЗах Российской Федерации обучать студентов работе с TASM? Не слишком ли это "архаично"? (Если оффтоп или флейм для э...
Spiker01
52
Кто-нибудь знает, как считается нагрузка на цпу? И что такое вообще "нагрузка на цпу"? вот, например, есть у цпу какой-то clock, настроенный на 3 ГГц --- Что значит "нагрузка...
Toideng
15
Можно ли написать свою библиотеку "socket" на каком либо языке ассемблера с нуля не используя сишние библиотеки ? Или это самоубийство ?
123🪐
15
Продолжая диалог про свифт в проде – сейчас возник вопрос в активном наборе бекендеров. В основном в нашей компании мы фанаты Java Spring и полностью ей довольны. Однако найм ...
Guseyn
27
Комрады, хотел уточнить. Проперть в OnDestroy юнита-хозяина по-прежнему доступна? И еще уточнение: finalization юнита наступает раньше или позже OnDestroy?
Ed Doc
48
{!! $modx->runSnippet( 'multiTV',[ 'tvName'=>'slider-main1', 'docid'=>'[*id*]', 'tplConfig'=>'', 'display'=>'4', 'offset'=>'0', 'rows'=>'all', 'ra...
Роман С
4
PopOs or Linux Mint for a noob starter? Also do you have any articles on how to safely dual boot Windows 10 alongside it? I've heard there are a bunch problems that can occur...
Senator
14
Может кто подсказать какие требования к изображениям для обучения Yolo v8? Как то разрешение, размер выделяемого обьекта в пикселях, оптимальное кол-во изображений. А то я пыт...
Владислав😎
11
Карта сайта