решение для одной задачки, а некрасивое меня раздражает...
Смотрите, есть десять тысяч человек, которые тыкали в вопрос типа чекбокс (множественный выбор) с несколькими вариантами. Типа такого:
Чем вы занимались на выходных?
data<-data.table("пил(а) пиво"=sample(c(0,1),800,T),"ел(а) попкорн"=sample(c(0,1),800,T),"ходил(а) в кино"=sample(c(0,1),800,T),"ходил(а) по магазинам"=sample(c(0,1),800,T),"ходил(а) в ресторан"=sample(c(0,1),800,T))
Надо посчитать для каждого варианта сочетания сколько человек выбрало такой вариант, включая всех, кто выбрал вместе с этим сочетанием и другие. Т.е., надо знать, сколько человек ходили в кино и ели попкорн, вне зависимости от того, пили ли они пиво. А потом узнать, сколько было таких, которые ещё и пиво пили. И так во всех возможных сочетаниях.
library(data.table) data<-data.table("пил(а) пиво"=sample(c(0,1),800,T),"ел(а) попкорн"=sample(c(0,1),800,T),"ходил(а) в кино"=sample(c(0,1),800,T),"ходил(а) по магазинам"=sample(c(0,1),800,T),"ходил(а) в ресторан"=sample(c(0,1),800,T)) fac_pred <- names(data) depth <- 5 all_comb <- lapply(1:depth, function(x) combn(fac_pred, x, simplify = F)) %>% unlist(recursive = F) l <- list() for (i in 1:length(all_comb)) { l[[i]] <- data[, .N, by = eval(all_comb[i][[1]])] } Может это как-то поможет
Если кого интересует, то посмотрев на это чуть более свежим взглядом, я таки породил решение через битовое сопоставление, которое меня не раздражает: library(data.table) bit_include<-function(x,y) sum(as.logical(x))==sum(as.logical(x) & as.logical(y)) data<-data.table("пил(а) пиво"=sample(c(0,1),800,T),"ел(а) попкорн"=sample(c(0,1),800,T),"ходил(а) в кино"=sample(c(0,1),800,T),"ходил(а) по магазинам"=sample(c(0,1),800,T),"ходил(а) в ресторан"=sample(c(0,1),800,T)) data2<-data[,.N,by=names(data)] data2[,cumulativeN:=apply(data2[,.SD,.SDcol=names(data)],1,function(z) data2[apply(data2[,.SD,.SDcol=names(data)],1,function(x) bit_include(z,x)),sum(N)])]
Обсуждают сегодня