строк по ID
требуется, чтобы дедубликация прошла на момент вставки чтобы от пользователя не требовалось писать group by + argMax на каждый запрос
пытаюсь использовать:
- table: engine AggregatingMergeTree (id, AggregateFunction(argMax, String, DateTime))
- materialized view, который в него вставляет с argMaxState() group by ID
для AggregatingMergeTree в доке указано, что будет коллапс строк, но в таблице есть дубликаты по ID после срабатывания MV
AggregatingMergeTree
The engine inherits from MergeTree, altering the logic for data parts merging. ClickHouse replaces all rows with the same primary key (or more accurately, with the same sorting key) with a single row (within a one data part) that stores a combination of states of aggregate functions.
верно ли, что все равно нужно писать group by + argMax даже при запросах к MV?
в момент вставки де-дупликация делается, но она идет внутри блока и потом в фоне идет при background merge используйте SELECT ... FINAL ... чтобы финализировать дедупликацию в момент чтения сейчас это распаралелено и не так уж и медленно
Обсуждают сегодня