если они не схлопнулись самим CH при движке MergeTree
может есть какой-то запрос для принудительного схлопывания?
Обычный MergeTree не слопывает дублик. Может у вас ReplacingMergeTree?
Дедупликация данных производится лишь во время слияний. Слияние происходят в фоне в неизвестный момент времени, на который вы не можете ориентироваться. Некоторая часть данных может остаться необработанной. Хотя вы можете вызвать внеочередное слияние с помощью запроса OPTIMIZE, на это не стоит рассчитывать, так как запрос OPTIMIZE приводит к чтению и записи большого объёма данных. Таким образом, ReplacingMergeTree подходит для фоновой чистки дублирующихся данных в целях экономии места, но не даёт гарантии отсутствия дубликатов. https://clickhouse.tech/docs/ru/engines/table-engines/mergetree-family/replacingmergetree/
Обсуждают сегодня