169 похожих чатов

Добрый день. Вопрос по логистической регрессии. Моя регрессия должна показать

уйдет клиент или нет в зависимости от локации. Всего 4 локации. Я вижу, что локация 1 стат значимо не отличается от базовой локации (то, что в интерсепте), как и локация 3. Нам нужно исключить эти локации из модели. Мой вопрос: как это правильно сделать?
Мое предположение было таким: закодировать так: если это локация базовая или первая или третья, то 0. если это локация 2, то 1. И после этого снова запускать логист.регрессию. Так нужно делать?

7 ответов

19 просмотров

для этого нужно построить confusion matrix на тестовых данных для начала. Коэффициенты модели с ее прогнозирующей способностью связаны примерно никак

1. Обычно в логистической регрессии работают с численными переменными-предикторами, а не факторными/номинальными. Использование последних уже является логистической регрессией с контрастами или что-то в этом роде 2. Соответсвенно Intercept - это параметр регрессии на константу и к кодированию отношения не имеет 3. Переменные можно просто исключить из модели. Собственно т.к. они не значимы, то и удаление/добавление таки переменных не должно сильно влиять на модель. Ваша Anova об этом и говорит. 4. Для того чтобы параметры регресси можно было анализировать на существенность то рекоменудется делать центрирование и нормирование. Тогда можно будет наглядно увидеть, что одни параметры существенные, а другие нет. Существенность и значимость - это разные вещи, естественно. 5. Обычно исключение переменных из модели линейной регрессии делается для того чтобы исключить мультиколлиниарность т.е. исключить многократное влияние одной экзогенной переменной

Ekaterina- Автор вопроса
Dm Kb
1. Обычно в логистической регрессии работают с чис...

Под существенностью Вы имеете в виду как сильно влияет на зависимую переменную независимая переменная, т.е значение коэффициентов (при условии, что мы стандартизировали переменные), под значимостью p-value? О факторных и численных переменных я думала, как и Igor

да, отличий от линейной регрессии нет... принцип работы моделей очень схожий... glm - чуть сложнее из-за проекции непрерывного численного множества в бинарное... просто, если на вход подается факторная/категориальная переменная (я не знаю, я тут гадаю), то она автоматически перекодируется в группу переменных с 0 и 1. т.е. была переменная location со значениями: location1, location2, location2, а стало три переменных у которых исключающая единица. Нам это особо не видно. Модель все делает автоматом, но знать что там происходит очень полезно. В таком случае Intercept также играет роль регрессии на константу и перекодировать ничего не нужно. Про контрасты можно почитать тут: https://r-analytics.blogspot.com/2013/03/blog-post_30.html#.XSHefpOPn6C

Ekaterina
Под существенностью Вы имеете в виду как сильно вл...

да, существенность - это сила влияния... переменная может объяснять всего 5-10% вариации, но быть очень существенной. Например ваши личные доходы могут объясняться на 5% выигрышами в лотерею с призовым фондом 1 млн. рублей. Значимость не такая большая как значимость переменной вашей ЗП, но вот влияние большое.

наверное можно и так сказать... просто переменную можно измерять в рублях, а можно в миллионах рублей... соответсвенно коэффициенты будут разные для рублей и миллионов рублей... но вы правы, чем меньше значимость тем ближе к нулю коэффициенты...

В статистике уровень значимости определяет вероятность совершить ошибку 1 рода. Эту вероятность задаёт сам исследователь.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта