Всем привет. Решаю задачу классификации, я новичок в этом деле, а

Question

Всем привет. Решаю задачу классификации, я новичок в этом деле, а

посоветоваться не с кем (первопроходец по рабочей задаче).
Проблемы такие:
1. На обучении датасет сильно несбалансирован относительно таргета (85% = 0, 15% - 1)
2. Одна фича крайне сильно вылазит вперед по важности по сравнению с остальными

Метрики, на которые ориентируюсь: AUC + F1

Что сделала:
1. Попробовала убрать влиятельную фичу
2. Поигралась с ней, сделала из нее другую фичу
3. При разбиении выборок делала стратификацию по таргету
4. Пробовала простое обучение и кроссвалидацию
5. Подбирала порог принятия решения под задачу бизнеса (мне важно избежать ложно отрицательных ответов, упор на точный преддикт класса 1)

Итог:
1. Мои метрики: AUC = 0,73, F1 = 0,37.
2. Почитала про интерпретацию по AUC, нашла информацию, что 0.7-0.8 - это вполне хорошая модель (не оличная, но пользоваться можно).

Но я чую, что что-то не то.

Может есть советы/рекомендации, куда двинуться, чтобы улучшить метрики?
Или все же ок?

#catboost #database #russian

0

03.08.2023

1 ответов

23 просмотра

Daniel Igumnov · Accepted Answer

Daniel Igumnov

для дисбаланса используется PR AUC , а не ROC AUC

0

03.08.2023

16 похожих чатов

Всем привет. Решаю задачу классификации, я новичок в этом деле, а

1 ответов

Похожие вопросы