Друзья, мало опыта у нас и инфы в интернете, поэтому

Question

Друзья, мало опыта у нас и инфы в интернете, поэтому

пишу сюда.

Как можно ускорить простой запрос и можно ли вообще:
SELECT * FROM transactions WHERE clickid='74af6c278b79a7bcbe18aaa3725cdece'

КХ на одной машине (с коробки, не тюнили), MergeTree, clickid типа FixedString(32), в индекс не добавлено (есть более приоритетные поля для индекса),

результат: 0.15 sec.| 5,521,409 rows.| 175 MB

Куда можно покопать?

#backend #clickhouse #database #devops #programming #russian

0

25.01.2021

19 ответов

29 просмотров

Пользователь 61745

Anton
это не очень хороший юзкейс для кх (точечные поиск...

а в кх завезли вторичный индекс?

0

25.01.2021

Anton

Пользователь 61745
а в кх завезли вторичный индекс?

вроде бы да? https://clickhouse.tech/docs/ru/sql-reference/statements/alter/index/

0

25.01.2021

Пользователь 61745

Anton
вроде бы да? https://clickhouse.tech/docs/ru/sql-r...

топ

0

25.01.2021

Gleb

Сделать таблицу с ПК на clickid

0

25.01.2021

Alex Zelensky (Scaleo) Автор вопроса

Anton
это не очень хороший юзкейс для кх (точечные поиск...

Понимаю, что не очень юзкейс, но точно нужно ускорить)

0

25.01.2021

【D】【J】

Пользователь 61745
а в кх завезли вторичный индекс?

он давно есть, но он "ненастоящий". Это скип индекс...

0

25.01.2021

【D】【J】

если кардинальность очень высокая скип индекс может помочь, если у вас повторяется в каждой грануле, то не поможет, добавьте в индекс, чем раньше (в плане порядка) тем лучше

0

25.01.2021

Denny [Altinity]

Пользователь 61745
а в кх завезли вторичный индекс?

нет

0

25.01.2021

Denny [Altinity]

Anton
вроде бы да? https://clickhouse.tech/docs/ru/sql-r...

это не те индексы, они не инверсные

0

25.01.2021

Denny [Altinity]

KV база нужна, нахера тут КХ ?

0

25.01.2021

Anton

Denny [Altinity]
это не те индексы, они не инверсные

А можно пояснение или пинок в сторону документации с пояснениями?

0

25.01.2021

papa karlo

Anton
А можно пояснение или пинок в сторону документации...

https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/mergetree/#table_engine-mergetree-data_skipping-indexes

0

25.01.2021

Denny [Altinity]

Anton
А можно пояснение или пинок в сторону документации...

индекса как такого нет, нельзя узнать в каком парте, в какой грануле, в какой строке хранится значение col=345645674567567 skip индекс хранится в парте КХ , например можно сделать индекс bloom_filter , в каждом парте будет лежать огромный blob = 10 МБ , который будет отвечать почти всегда: "да тут есть в парте 345645674567567" (у блум фильтра большой false positive). потом будет переход в колонку и поиск там 345645674567567, там конечно нету 345645674567567, в итоге все работает медленее чем без индекса. min_max работать не будет, потому что в каждом парте будет примерно min = минус_бесконечность, max = плюс_бесконечность, поэтому 345645674567567 попадает в этот диапазон set тем более не работает, это тоже самое что колонку еще раз положить в парт.

0

25.01.2021

Anton

Denny [Altinity]
индекса как такого нет, нельзя узнать в каком парт...

А какие объекты индекс «скипает»? Парты целиком?

0

25.01.2021

Denny [Altinity]

Anton
А какие объекты индекс «скипает»? Парты целиком?

гранулы основного индекса, skip индекс покрывает одну или несколько гранул основного индекса (задается при создании) для поиска каких-то рандомных значений размазанных по столбцу вообще не работает

0

25.01.2021

Anton

Denny [Altinity]
гранулы основного индекса, skip индекс покрывает о...

Ну так гранулы уже не так плохо. Есть ощущение, что при правильно подобранных параметрах того же блума все же можно получить выигрыш (ну грубо прочитать пару лишних false positive гранул может быть выгоднее, чем фигачить фулкан по колонке)

0

25.01.2021

Denny [Altinity]

Anton
Ну так гранулы уже не так плохо. Есть ощущение, чт...

блум просто писец насколько тяжелый в размере и в cpu нужном для вычисления, в 99% дешевле всю колонку просканировать

0

25.01.2021

Aleksey Barabanov

Партиционирование по хешу от ид, разве что. Отключить кастомные кодеки сжатия для колонки кликид. Ну и селектить * из клика как обычно плохая идея.

0

26.01.2021