примерно по 200мб. Данные на каждом сервере отсортированы по времени, но записываются за одинаковый период (т.е. данные с лоад балансера). В кликхаусе также сортировка по времени.
ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(time)
ORDER BY (time)";
Вопрос. Есть ли смысл сделать партиции по часам чтобы КХ ворочил меньшие куски логов для сортировки? Или с точки зрения ресурсов это не существенно?
А сколько по времени вы храните данные ?
Тогда у вас уже 360 партиций, а так ещё больше будет и Clickhouse будет захлебываться, и вы будете ловить ошибку: Слишком много партов не могу читать ...
Я бы нашёл, как она выглядит, но не могу что то
Я нашёл, вот тут описано https://clickhouse.com/docs/ru/operations/settings/merge-tree-settings/#parts-to-throw-insert
https://github.com/ClickHouse/ClickHouse/issues/6720#issuecomment-526045768 ну и тут описано
Обсуждают сегодня