Timestamp   DateTime default now(),
                  
                  
                      EventName   LowCardinality(String),
                  
                  
                      UserId      UUID default generateUUIDv4(),
                  
                  
                      /* другие колонки */
                  
                  
                  )
                  
                  
                  engine = MergeTree()
                  
                  
                  PARTITION BY (toYYYYMM(Timestamp), EventName)
                  
                  
                  ORDER BY (Timestamp, EventName)
                  
                  
                  
                  
                  
                  Основная задача - считать количество уникальных UserId за диапазон времени фильтруя по EventName и при необходимости дополнительно по *другим колонкам* и выводить на график с разбивкой по часу. Например:
                  
                  
                  SELECT
                  
                  
                      (intDiv(toUInt32(Timestamp), 3600) * 3600) * 1000 AS timestamp,
                  
                  
                      countIf(DISTINCT UserId, EventName = 'finish') / countIf(DISTINCT UserId, EventName = 'start') AS ratio
                  
                  
                  FROM events
                  
                  
                  WHERE Timestamp > 1612781916
                  
                  
                  GROUP BY timestamp
                  
                  
                  ORDER BY timestamp
                  
                  
                  
                  
                  
                  Решение в таком виде работает, но колонка UserId съедает в 10ки раз больше места, чем оставшиеся 10ки колонок.  Но подозреваю, что использование UUID для моих целей может привести к деградации производительности со временем, т.к. придется читать "жирную" колонку с диска. 
                  
                  
                  Прошу накинуть:
                  
                  
                  1) Верный ли подход в целом - оптимально ли так строить запросы по подобной таблице
                  
                  
                  2) В каких кейсах используете UUID, настраиваете ли для него какое-либо сжатие не дефолтное, стоит ли ждать деградации по производительности (если забить на занимаемое место)?
                  
                  
                
можно хранить uniqState / uniqHLL / uniqCombi... uniqHLL12 занимает очень мало места и очень быстро работает https://gist.github.com/den-crane/32cac4f069f4227b35ab86553bbc649b disk space used: 2.2M uniqHLL12State 58M uniqCombinedState(20) 140M uniqState
Спасибо! Поизучаю это направление
Обсуждают сегодня