Timestamp DateTime default now(),
EventName LowCardinality(String),
UserId UUID default generateUUIDv4(),
/* другие колонки */
)
engine = MergeTree()
PARTITION BY (toYYYYMM(Timestamp), EventName)
ORDER BY (Timestamp, EventName)
Основная задача - считать количество уникальных UserId за диапазон времени фильтруя по EventName и при необходимости дополнительно по *другим колонкам* и выводить на график с разбивкой по часу. Например:
SELECT
(intDiv(toUInt32(Timestamp), 3600) * 3600) * 1000 AS timestamp,
countIf(DISTINCT UserId, EventName = 'finish') / countIf(DISTINCT UserId, EventName = 'start') AS ratio
FROM events
WHERE Timestamp > 1612781916
GROUP BY timestamp
ORDER BY timestamp
Решение в таком виде работает, но колонка UserId съедает в 10ки раз больше места, чем оставшиеся 10ки колонок. Но подозреваю, что использование UUID для моих целей может привести к деградации производительности со временем, т.к. придется читать "жирную" колонку с диска.
Прошу накинуть:
1) Верный ли подход в целом - оптимально ли так строить запросы по подобной таблице
2) В каких кейсах используете UUID, настраиваете ли для него какое-либо сжатие не дефолтное, стоит ли ждать деградации по производительности (если забить на занимаемое место)?
можно хранить uniqState / uniqHLL / uniqCombi... uniqHLL12 занимает очень мало места и очень быстро работает https://gist.github.com/den-crane/32cac4f069f4227b35ab86553bbc649b disk space used: 2.2M uniqHLL12State 58M uniqCombinedState(20) 140M uniqState
Спасибо! Поизучаю это направление
Обсуждают сегодня