таблица с движком NULL, и есть MaterializedView с движком AggregatingMergeTree.
CREATE TABLE IF NOT EXISTS indicators_processes_ingest
(
id VARCHAR(255),
machine_id VARCHAR(255),
ts_last_update TIMESTAMP default NOW(),
ts_start Nullable(TIMESTAMP),
ts_end Nullable(TIMESTAMP),
command_line Nullable(TEXT),
parent_id Nullable(VARCHAR(255))
) ENGINE = Null();
CREATE MATERIALIZED VIEW IF NOT EXISTS indicators_processes
ENGINE = AggregatingMergeTree()
TTL ts_last_update + INTERVAL 1 MONTH
ORDER BY (machine_id, id)
AS
SELECT machine_id,
id,
max(ts_last_update) AS ts_last_update,
anyIfOrNull(ts_start, isNotNull(ts_start)) AS ts_start,
anyIfOrNull(ts_end, isNotNull(ts_end)) AS ts_end,
anyIfOrNull(command_line, isNotNull(command_line)) AS command_line,
anyIfOrNull(parent_id, isNotNull(parent_id)) AS parent_id
FROM indicators_processes_ingest
GROUP BY (machine_id, id);
Я предполагал, что после мержа партов в мат-вью он будет выполнять эту же аггрегирующую функицю на строки с одинаковым набором значений в колонках ORDER BY
Для проверки вставлю 2 строки
INSERT INTO indicators_processes_ingest (id, machine_id, ts_start, ts_end, command_line, parent_id)
VALUES ('id', 'machine_id', NULL, NOW(), 'cmd.exe', NULL);
INSERT INTO indicators_processes_ingest (id, machine_id, ts_start, ts_end, command_line, parent_id)
VALUES ('id', 'machine_id', NOW(), NULL, NULL, 'test');
И выполняю вот такой селект
SELECT
*,
'original' AS s
FROM indicators_processes
UNION ALL
SELECT
*,
'final'
FROM indicators_processes
FINAL
UNION ALL
SELECT
machine_id,
id,
max(ts_last_update) AS ts_last_update,
anyIfOrNull(ts_start, isNotNull(ts_start)) AS ts_start,
anyIfOrNull(ts_end, isNotNull(ts_end)) AS ts_end,
anyIfOrNull(command_line, isNotNull(command_line)) AS command_line,
anyIfOrNull(parent_id, isNotNull(parent_id)) AS parent_id,
'group-by'
FROM indicators_processes
GROUP BY (machine_id, id)
Чтобы посмотреть что есть в таблице, что в ней будет после мержа и что выдал бы GROUP BY. Видим, что результат GROUP BY и то, что в FINAL это совершенно разные значения
┌─machine_id─┬─id─┬──────ts_last_update─┬────────────ts_start─┬──────────────ts_end─┬─command_line─┬─parent_id─┬─s────────┐
│ machine_id │ id │ 2021-06-18 11:45:56 │ ᴺᵁᴸᴸ │ 2021-06-18 11:45:56 │ cmd.exe │ ᴺᵁᴸᴸ │ original │
│ machine_id │ id │ 2021-06-18 11:45:57 │ 2021-06-18 11:45:57 │ ᴺᵁᴸᴸ │ ᴺᵁᴸᴸ │ test │ original │
│ machine_id │ id │ 2021-06-18 11:45:57 │ 2021-06-18 11:45:57 │ 2021-06-18 11:45:56 │ cmd.exe │ test │ group-by │
│ machine_id │ id │ 2021-06-18 11:45:56 │ ᴺᵁᴸᴸ │ 2021-06-18 11:45:56 │ cmd.exe │ ᴺᵁᴸᴸ │ final │
└────────────┴────┴─────────────────────┴─────────────────────┴─────────────────────┴──────────────┴───────────┴──────────┘
нет нужно использовать maxState вместо max чтобы при мерже сливались состояния ... а не конкретные значения из документации https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/aggregatingmergetree/ ClickHouse replaces all rows with the same primary key (or more accurately, with the same sorting key) with a single row (within a one data part) that stores a combination of states of aggregate functions.
@timofeevdmitry вот, почитайте, может больше поймете
Призываом, наверное ошиблись, но спасибо!
нет, там человек не понимает зачем нужны State и Merge
Обсуждают сегодня