отдельную колонку дату и делать PARTITION BY toYYYYMM именно по ней, вместого того чтобы хранить только одну колонку с DateTime и делать партиции по ней?
нет смысла
фактически PARTITION BY это выражение по которому считается ПРЕФИКС в имени директории для каждого парта, в подпапке /var/lib/clickhouse/data/db/table/ больше ничего, дальше если можно быстро вычислить партиции из запроса просто только этот префиск и используется при сканировании партов отдельное поле конечно нафиг не нужно, вы ведь в запросах все равно будете использовать WHERE old_field ...
Ну @BloodJazMan вы конечно правы в данном контексте. Но я всё равно дополню, глаз режет формулировка "больше ничего кроме как префикс", вобщем то замените toYYYYMM на toYYYYMMDD и получите что парты разных дней не мержатся по понятной причине. Ну и действительно ли вы не будете использовать в запросах хотя бы where event_date=today()? Мы вот используем. Вобщем, @ufaweb , желаю дополнить что в вашем контексте всё правильно @BloodJazMan сказал, но будьте внимательны при будующих кейсах, не обязательно будет так же )
типичный кейс - что-то сделать с данным которые были записаны за прошедщий день, в запросе where created_at between '01-01-2021 00:00:00' and '01-01-2021 23:59:59', если я правильно понимаю то оптимизатор запросов кликхауса поймет что надо брать только ту партицу которая нужна (в определии таблицы собственно указано партишин бай toyyyymm(created_at)
спасибо что дополнили, про то что мержи parts делаются только внутри partitions я забыл упомянуть и что важно чтобы PARTITION BY разбивал ваши данные равномерно и что важно чтобы один INSERT не пробовал создавать parts больше чем в 100 partitions за раз
к сожалению не смогу сказать точно настолько ли кликхаус умен, ибо у меня везде отдельная колонка date и партиционируемся по ней и не могу проверить ((( можете сказать set send_logs_level = 'trace' и проверить вот так будет если да ( таблица с partition_key toYYYYMMDD(date) ): SELECT count() FROM ****.**** WHERE toYYYYMMDD(date) = toYYYYMMDD(today()) <Information> executeQuery: Read 1 rows, 4.01 KiB in 0.016716746 sec., 59 rows/sec., 239.75 KiB/sec. вот так если нет (та же таблица) SELECT count() FROM ****.**** WHERE toYYYYMMDD(timestamp) = toYYYYMMDD(today()) <Information> executeQuery: Read 252509822 rows, 963.25 MiB in 4.144599248 sec., 60925027 rows/sec., 232.41 MiB/sec
Обсуждают сегодня