таблица с такой структурой:
(
Path String,
Value Float64,
Time UInt32,
Date Date,
Timestamp UInt32
)
ENGINE = GraphiteMergeTree(Date, (Path, Time), 8192, 'graphite_rollup')
В ней хранятся графитовые метрики. В первичный ключ у нас входит строковое поле Path и время. Партиции, которые создал ClickHouse, выглядят следующим образом: 20180610_20180611_6676093_6700911_7 (партиций для каждого месяца по 20-30 штук) . Насколько я понимаю, для int'овых полей имя 6676093_6700911 означало бы диапазон первичного ключа 6676093 — 6700911, но что это означает для строковых полей? Вероятнее всего, берется хэш от строки, а значит запросы вида WHERE Path = 'моя_строка' и тем более WHERE Path = 'мой_префикс%' будут идти во все партиции? Или как это работает :)?
Спрашиваю, потому что такие запросы выполняются неприлично долго, скорость чтения состаляет сотни тысяч строк в секунду вместо ожидаемых сотен миллионов :). Второй раз исполняется уже быстрее, но тоже долго. Хочется понять, почему так происходит и правильно ли я понимаю, как партиции разбиваются по файлам.
6676093 - это последовательный номер вставки. Он говорит о том, что в таблицу, в данную партицию, было сделано примерно 6 676 093 INSERT-ов. Для хорошей производительности в WHERE надо указывать условия и на первичный ключ (например, Path = 'мой_префикс%') и на ключ партиционирования (например, Date >= '2018-07-20'). Если есть условия на Time, то условия на Date всё-равно нужны.
Обсуждают сегодня