Всем привет! Передо мной стоит задача - предсказания вероятности маловероятного

Question

Big Data Science :: AI / Big Data / Machine Learning / MLOps

Всем привет! Передо мной стоит задача - предсказания вероятности маловероятного

события (0.5% положительных исходов). Я обучил классификатор с помощью cross entropy loss, но accuracy у него получается как у 99.5% - все вероятности, которые он предсказывает, меньше 50%, поэтому все предсказания - 0 (нет события), отсюда тривиальное значение accuracy, которое не зависит от модели. Я всегда ориентировался за значение logloss, но (мое мнение) оно не является объяснимой метрикой. Что посоветуете использовать в качестве объяснимой метрики тут? ROC-AUC, что-то еще? Интересно с обоснованием (или с ссылкой с обоснованием).

К тому же, у меня все время появляются новые данные, и в зависимости от того, как звезды сложатся, априорная вероятность положительного исхода в них меняется в пределах 0.2%-1.5%. Если считать, что две модели одинаково хороши - то какая метрика будет приблизительно одинаковой для них, если у одной модели данные были 0.2%, а у другой - 1.5%?

Я надеюсь, что я внятно изложил мысль, если нет - могу уточнить какие-то моменты.

edit: меня устраивает, что все предсказания - 0, потому что в первую очередь важно, чтобы вероятность соответствовала истине.

#database #programming #russian #software

0

13.03.2021

13 ответов

33 просмотра

David Dalé

ROC AUC для таких случаев использовать супер адекватно.

0

13.03.2021

Морской Верблюд

David Dalé
ROC AUC для таких случаев использовать супер адекв...

+

0

13.03.2021

Timofey Naumenko Автор вопроса

David Dalé
ROC AUC для таких случаев использовать супер адекв...

А она обладает свойством из второго абзаца? Что roc auc будет одинаковым вне зависимости от того, какая априорная вероятность?

0

13.03.2021

Морской Верблюд

Timofey Naumenko
А она обладает свойством из второго абзаца? Что ro...

Я правильно понимаю, что тебе нужна вероятность 0?

0

13.03.2021

Timofey Naumenko Автор вопроса

Морской Верблюд
Я правильно понимаю, что тебе нужна вероятность 0?

Нет, мне нужна вероятность 1

0

13.03.2021

Морской Верблюд

Timofey Naumenko
Нет, мне нужна вероятность 1

Ну так и почему тебя устраивмет модель, замечающая только 0? Которая выдаёт вероятность 1 очень маленькой

0

13.03.2021

David Dalé

Timofey Naumenko
А она обладает свойством из второго абзаца? Что ro...

Да, обладает. По сути, ROC AUC измеряет вероятность того, что для наблюдения, равновероятно выбранного из всех "единичек", модель предскажет скор выше, чем для наблюдения, равновероятно выбранного из всех "ноликов". Сколько именно единичек или ноликов в штуках - не важно.

0

13.03.2021

Timofey Naumenko Автор вопроса

Морской Верблюд
Ну так и почему тебя устраивмет модель, замечающая...

Потому что у меня идет несколько параллельных предсказаний, мне нужно отранжировать, какое из них более вероятное

0

13.03.2021

Морской Верблюд

Timofey Naumenko
Потому что у меня идет несколько параллельных пред...

Ансамбль или че?

0

13.03.2021

Timofey Naumenko Автор вопроса

Морской Верблюд
Ансамбль или че?

Нет, задача ранжирования событий. Модель одна

0

13.03.2021

Timofey Naumenko Автор вопроса

David Dalé
Да, обладает. По сути, ROC AUC измеряет вероятнос...

Оооооооо, это то, что надо! Если это так, то это прям 100% то, что надо. А есть где-то объяснялка, почему это так?

0

13.03.2021

David Dalé

Timofey Naumenko
Оооооооо, это то, что надо! Если это так, то это п...

Сейчас объясню) ROC-кривая рисуется так: проходимся циклом по всем возможным порогам, и для каждого порога на оси Х откладывем долю нулей, у которых скор выше этого порога, а на оси У - долю единиц, у которых скор выше этого порога.

0

13.03.2021

Морской Верблюд · Accepted Answer

Морской Верблюд

F1 попробуй посмотреть

0

13.03.2021

215 похожих чатов

Всем привет! Передо мной стоит задача - предсказания вероятности маловероятного

13 ответов

Похожие вопросы