если все предикторы - это факторы из трех значений? А именно 17 штук факторных переменных
Можно, но не нужно. Каждый уровень каждого фактора перекодируется в 0/1, то есть да/нет, и на 17*3 переменных делается модель
А почему именно лог регрессия нужна?
Легко. Даммируем через fastDummies::dummy_cols() и работаем
Надо построить модельку кредитного скоринга на лог регрессии. Прочитал статью, где написано, что принято все переменные делать факторными (тут это биннинг называется). Сделал, и какая то чушь получается. https://naukovedenie.ru/PDF/180EVN214.pdf
А потом делаем например margins()
Спасибо, сейчас изучу )
Только на выходе функции имеем наборы собственных фреймов, будьте аккуратны и не втыкайте результат в исходный дф
Мне подсознание ещё WoE на эту тему подсказывает.
если правильно понял постановку, то примерно похожую задачу решал здесь: https://habr.com/ru/post/548414/ не сильно вдаваясь в тонкости и красоты. там все равно эти светофоры больше для цветомузыки, чем для осознания проблем. если интересно — можно поглядеть. найдете косяки — тоже полезно будет услышать.
Weight of Evidence
так вроде lm/glm в R самостоятельно факторы на дамми раскладывают
Но тогда придется играть с понимантем intercept
вот кстати сейчас полез как раз разбираться, в чем разница. По дефолту glm выкидывает один фактор и коэффициенты показывает относительно него, насколько я помню. А если самому по сталбцам раскидать... Короче, пошел курить тему 😂
тут я, честно говоря, ничего не понял
n факторов на входе, один фактор на выходе. rule-fit рулит для таких задач менеджеры пищат
но может я опять не так вопрос прочитал?
Вопрос был в том, может ли логистическая регрессия выдавать корректные результаты, если строить ее только на категориальных переменных?)
тогда это в теор.блок... я дал практическое решение на такой вопрос. и GAM вроде как неплохо дает такие штуки
ок, спасибо)
Меня вот эта история с выкидыванием фактора тоже всегда путала. История с ручным OHE по крайней мере понятнее выглядит.
Выкидывает чтобы не было мультиколлинеарности. Который выкидывает это ничего не меняет
вот у меня тоже вопрос вертится, если самому закодировать все уровни как 0 и 1 - это не приведет к мультиколлинеарности?
не значимые выкидывать?
Если вы ставите дами для 0 и дами для 1 то будет
а как выбрать одну из трех вариантов?
Через корплот легко проверить. Порог — 0.4
R это делает сам под капотом
Обсуждают сегодня