между запросом с использованием Sign и запросом с использованием final
Но на большом оъеме данных, после optimize table, запросы select sum(Sign) from table и select count() from table final выдают разные цифры
С чем это связанно?
Да, это возможно. Сценарий использования CollapsingMergeTree предполагает, что в таблицу записывается некий лог изменений. Подробнее: https://yandex.com/blog/clickhouse/how-to-update-data-in-clickhouse (начиная со слов Incremental Log). Для этих данных есть следующие требования: 1. Для каждого значения первичного ключа в таблицу могут быть вставлены группы записей одного из следующих видов: - новый объект (одна запись с Sign = 1); - изменение объекта (две записи с Sign = -1 и Sign = 1 ровно в таком порядке); - удаление объекта (одна запись с Sign = -1). 2. В одной пачке вставляемых INSERT-ом данных, для каждого первичного ключа есть только одна такая группа записей. 3. При изменении или удалении объекта, для строчки с Sign = -1, значения всех столбцов кроме Sign должны соответствовать предыдущим значениям объекта (ранее вставленным с Sign = 1). При соблюдении этих условий, вы можете делать GROUP BY по любым полям с HAVING sum(Sign) > 0 и результат не будет меняться в зависимости от схлопывания строк. Тут ещё подробнее рассмотрен сценарий: https://groups.google.com/forum/#!msg/clickhouse/VixyOUD-K68/Km8EpkCyAQAJ Поведение FINAL и запроса с GROUP BY будет совпадать, если данные записываются так как указано выше.
Обсуждают сегодня