У меня есть три группы со значениями 0 или 1.
set.seed(42)
data_frame(a = sample(c(0, 1), 20, prob = c(0.4, 0.6), replace = TRUE),
b = sample(c(0, 1), 20, prob = c(0.6, 0.4), replace = TRUE),
c = sample(c(0, 1), 20, prob = c(0.8, 0.2), replace = TRUE)) %>%
gather(var, value, a:c) ->
df_1
Я делаю логит регрессию и получаю следующее.
glm(value ~ var, data = df_1, family = "binomial")
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.2006707 0.4494666 -0.4464641 0.65526203
varb 0.4013414 0.6356417 0.6313956 0.52778189
varc -1.1856237 0.7173005 -1.6528967 0.09835189
vara ушел в интерсепт, а коэффициенты при varb и varc говорят, насколько нужно увеличить логарифм шансов vara, чтобы попасть в varb и varc соответственно. Стат. значимость коэффициента высчитаывется исходя из H0, что этот коэффициент равен 0. Таким образом, логистическая регрессия, сравнит мне каждый кождый коэффициент с интерсептом (т. е. vara), а между собой не сравнит. А если я хочу сравнить все коэффициенты?.. Как люди отвечают на такие вопросы?.. Можно отправить в интерсепт другой коэффициент и получить желаемое. Но при росте количества коэффицентов нужно будет много думать... В чем вопрос... Если я хочу сравнивать все группы, то тогда следует использовать двухвыборочные тесты и делать поправки? Или все же есть возможность все сделать одной регрессией?
Если нужно просто сравнить все группы, то можно сделать пост хок тест. Мне нравится для этого использовать пакет multcomp (у них хорошая виньетка).
Обсуждают сегодня