Подскажите, как можно ускорить выборку из SummingMergeTree? В сутки примерно

Question

Подскажите, как можно ускорить выборку из SummingMergeTree? В сутки примерно

+1 млрд записей в таблицу. ORDER BY достаточно большой, поэтому задал PRIMARY KEY по первым двум полям (типы DateTime и IPv4), т.к. выборка по ним идёт больше всего.
Знаю, что можно добавить индексов в таблицу, но не особо помогают. Может, я их неправильно готовлю, не пойму.
В среднем, запросы выполняются от 4-5 секунд, в зависимости от выбранного интервала времени. Почему грешу на индекс - вижу в SELECT count(), что вытаскивается 150 тысяч строк, а в запросе Processed 5.21 million rows, т.е. индекс явно не используется.

#backend #clickhouse #database #devops #programming #russian

0

21.03.2022

11 ответов

68 просмотров

Казанский Автор вопроса

【D】【J】
нужны детали, например ДДЛ таблицы и запрос

Около 10 колонок, ORDER BY включает 8 колонок, кроме двух, по которым собирается аггрегация. PRIMARY KEY строю по DateTime и IPv4 (тип колонки). Исходные данные забираю из "большой" таблицы на 35 колонок, которая MergeTree.

0

07.04.2022

Denny [Altinity]

Казанский
Около 10 колонок, ORDER BY включает 8 колонок, кро...

т.е. вы выстрелили себе в ногу положив DateTime первым в индекс?

0

07.04.2022

Dmitriy S

Denny [Altinity]
т.е. вы выстрелили себе в ногу положив DateTime пе...

А можете уточнить, чем это плохо?

0

08.04.2022

Константин

Dmitriy S
А можете уточнить, чем это плохо?

Тем, что у вас идёт фулл скан таблицы при любом запросе

0

08.04.2022

Dmitriy S

Константин
Тем, что у вас идёт фулл скан таблицы при любом за...

либо явно указывать рамки, чтобы сканил только одну партицию?

0

08.04.2022

Константин

Dmitriy S
либо явно указывать рамки, чтобы сканил только одн...

Я ошибся, фулл скан партиций в которые попадает WHERE dateTime

0

08.04.2022

Dmitriy S

Константин
Я ошибся, фулл скан партиций в которые попадает WH...

а это будет в свежих версиях КХ поправлено? 😱

0

08.04.2022

Казанский Автор вопроса

Denny [Altinity]
т.е. вы выстрелили себе в ногу положив DateTime пе...

А там DateTime с 10-минутными интервалами, то есть в одно такое значение DateTime мы получаем несколько млн строк, поэтому он и в индексе. Я не пойму, почему кликхаус в выборку берёт слишком много строк, индекс по DateTime-то есть.

0

08.04.2022

Denny [Altinity]

Казанский
А там DateTime с 10-минутными интервалами, то есть...

там все очень тупо и надежно работает и там все очевидно. но всплепую, без конкретики это не объяснить

0

08.04.2022

Казанский Автор вопроса

Denny [Altinity]
там все очень тупо и надежно работает и там все оч...

А где можно почитать про работу индексов подробнее?

0

08.04.2022