раз задача возникла.
есть 45 испытуемых, с помощью сложной метрики определены расстояния между ними.
дальше я вижу глазами, что испытуемые одного пола и возраста вроде как кучкуются. Как я могу эти предикторы оценить?
Пока единственная идея - кластеризовать и посчитать логистическую регрессию, где кластер будет зависимой переменной
если "с помощью сложной метрики определены расстояния между ними" то зчачем делать что-то еще?
расстояния с полом и возрастом никак не связаны, это, упрощенно, разница в заполнении опросника, необходимо было для визуализации через mds или pca. Уже когда я результаты посмотрел, создалось впечатление, что результаты во многом определяются демографией. То есть если на два кластера разбить, то в первом будет 10 процентов женщин и средний возраст 60, а во втором - 55 процентов женщин и средний возраст 40. Я думаю, как мне эту зависимость более корректно и наглядно показать
у вас тут много контекста, который сложно понять без постановки задачи ... если хочется посмотреть как факторы разбивают популяцию то можно использовать таблицы сопряженности ... возраст можно разбить на несколько групп и смотреть в разрезе таких групп, вот код: library(ggmosaic) patients <- tibble( id = 1:45, sex = sample(c("M", "F"), 45, replace = TRUE), depend_ind = sample(0:1, 45, replace = TRUE), age = sample(1:85, 45, replace = TRUE)) patients %>% mutate(age_grp = cut(age, breaks = 3, labels = c("child", "adult", "elder"), include.lowest = TRUE), depend_ind = as.factor(depend_ind)) %>% ggplot() + geom_mosaic(aes(x = product(sex, age_grp), fill = depend_ind), alpha = .5)
Обсуждают сегодня