вида:
data.table(x = c(0, 0, 0, 0, 5:1), y = c(0, 0, 1:5, 0, 0), z = c(0, 1:8))
Нужно убрать все "ведущие" нули в каждом векторе (их каждый раз разное количество), образующиеся хвосты можно заменить нулями:
data.table(x = c(5:1, 0, 0, 0, 0), y = c(1:5, 0, 0, 0, 0), z = c(1:8, 0))
Решение у меня пока нашлось такое:
dt2 <-
dt1[, lapply(.SD, function(x)
shift(
x,
n = min(which(x > 0)),
fill = 0,
type = "lead"
))]
Вроде работает, но может я что-то упустил... Кто сможет подсказать?
0. В целом, идея неплоха. 1. Немного режет which и min. 2. К чему здесь data.table? Если это вектора разной длины, каждый со своим жизненным циклом, то укладка их в прямоугольное преставление (а это тоже список векторов) создает ненужные ассоциации о связях в строках. Лучше честно писать, что это список векторов. Я бы делал так: library(data.table) dt1 <- data.table(x = c(0, 0, 0, 0, 5:1), y = c(0, 0, 1:5, 0, 0), z = c(0, 1:8)) dt1 %>% purrr::map(~.[cumsum(.) > 0])
Илья, спасибо Чтение набора данных было из файла (бинарного, специфического формата "фортрановского типа") Поэтому образовалось это "прямоугольное представление", т.е. там уже нули были в каждом векторе предопределенной длины UPDATE: мне потом еще этот "список векторов" в файл отправить, поэтому я решил, что "прямоугольный" вариант data.table отправить через fwrite лучше, чем по списку бежать
вот и проявляется специфика задачи. для разового преобразования не суть важно решение, если оно успешное. само по себе это было похоже на разреженные матрицы. Если дальше предполагались вычисления с ними — возникли бы доп. вопросы.
Да, спасибо еще раз Специфика задачи есть, и цель еще иногда определяет средтва. Кстати, cumsum позволяет решить в стиле base R - если, например, только data.frame оперировать... и хвосты нулями забивать df1 <- data.frame( x = c(0, 0, 0, 1:5, 0, 0), y = c(0, 1:5, 0, 0, 0, 0), z = c(0, 0, 0, 0, 0, 1:5) ) df2 <- sapply( df1, function(x) { cs <- cumsum(x) c(x[cs > 0], x[cs <= 0]) } ) df3 <- as.data.frame(df2)
И вот еще один нюанс - мне попался вектор из нулей! min(which(0 > 0)) - это фейл! а вот sum(cumsum(0 <= 0)) - уже без ошибок
Обсуждают сегодня