лучший вариант. разобраться откуда дубли беруться и устранить причину еще на подходе к clickhouse
Как вариант - replacing merge tree + create view v1 as select * from t order by c_version desc limit 1 by c1, c2, c3 Где c1,c2,c3 - ключ, c_version - версия (например timestamp) Но кажется что такое не очень быстро будет работать
Да, в принципе можно после каждой выгрузки использовать команду Optimize table для удаления дубликатов.
так себе идея, будете диск насиловать годится для размеров до миллиона записей...
Обсуждают сегодня