Вопрос про влияние ключа сортировки на скорость работы CollapsingMergeTree. Например, есть

Question

Вопрос про влияние ключа сортировки на скорость работы CollapsingMergeTree. Например, есть

CollapsingMergeTree, ключ сортировки record_id имеет тип UUID. Её задача - удалять дубли.
В таблице 1.2 млрд записей, в день пишется около 100 млн новых, которые попарно схлопываются и остаются только оставшиеся без пар.

Выбор произвольной записи из этой таблицы по record_id занимает 2000мс и ест 100мб памяти, а если ключом сортировки сделать sipHash64(record_id), то поиск по нему происходит уже за 11мс.

Вопрос - а повлияет ли замена ключа сортировки с record_id на sipHash64(record_id) на скорость\качество схлопывания всей CollapsingMergeTree? Потому что сейчас есть ощущение, что приличная часть дублей никогда не схлопывается (не успевает?) до наступления TTL.

#backend #clickhouse #database #devops #programming #russian

0

22.12.2020

8 ответов

39 просмотров

Alexey Sokolov Автор вопроса

Slach [altinity]
вместо UUID лучше использовать snowflake id UInt64...

Спасибо, поизучаю. Но в текущей ситуации они прилетают извне и для начала надо научиться более быстро работать с этими. Разве что генерить для каждой прилетающей записи второй адишник и внутри работать с ним, а наружу отдавать оригинальный.

0

22.12.2020

Slach [altinity]

Alexey Sokolov
Спасибо, поизучаю. Но в текущей ситуации они прил...

ну можете попробовать FINAL использовать чтобы дедупликация проходила уже в момент SELECT ...

0

22.12.2020

Gleb

Slach [altinity]
ну можете попробовать FINAL использовать чтобы дед...

а если выборка затронет 1ТБ данных, селект же будет дожидаться?

0

22.12.2020

Alexey Sokolov Автор вопроса

Кстати, с группировкой не всё так однозначно как с выбором одной записи: select record_id from TableWithUUIDKey group by record_id having sum(Sign) != 0 - 10 гигов памяти, 6700мс select record_id from TableWithHashedKey group by recordHash, record_id having sum(Sign) != 0 - 14 гигов памяти, 10200мс

0

22.12.2020

Denny [Altinity]

Gleb
а если выборка затронет 1ТБ данных, селект же буде...

select не ждет. Он сам делает final на лету, для себя лично.

0

22.12.2020

Denny [Altinity]

потому что UUID 128бит. И надо больше памяти и возможно начинается вытеснение группировки на диск

0

22.12.2020

Denny [Altinity]

на шедулер мержей ключ таблицы не влияет, шедулер мерже рассматривает размеры и кол-во партов

0

22.12.2020

Slach [altinity] · Accepted Answer

Slach [altinity]

вместо UUID лучше использовать snowflake id UInt64 оно монотонно нарастает и ORDER BY и merge Работать будут быстрее

0

22.12.2020

184 похожих чатов

Вопрос про влияние ключа сортировки на скорость работы CollapsingMergeTree. Например, есть

8 ответов

Похожие вопросы