184 похожих чатов

Добрый день или ночь )) вопрос по архитектуре - большая таблица,

рекламные события постоянно пишутся - (много и часто). группировка времени - час. думаю что-то в духе
summingmergetree(
dt datetime
client_id UInt32
остальные поля
)
ENGINE = SummingMergeTree
PARTITION BY toYYYYMMDD(dt)
PRIMARY KEY (dt, client_id)
ORDER BY (client_id,....dt)

Вроде как видел тут рекомендации утащить dt вконец списка order by если партиции по дате. Это так или я напутал?
Примари кей мне не особо нужен, но читал в доке что без него он будет равным ORDER BY - а там с десяток полей - они в примари точно не нужны. Не устарели данные?
Стоит ли добавить client_id в PARTITION BY toYYYYMMDD(dt? client_id).
Клиентов ну штук 1000 наверно. Или партиции лопнут от такого количества?
Стоит ли партировать по дню - в день 10-20 ярдов строк - или сразу по месяцу
Вот ))

4 ответов

3 просмотра

>Стоит ли добавить client_id в PARTITION BY toYYYYMMDD(dt? client_id). >Клиентов ну штук 1000 наверно. Или партиции лопнут от такого количества? лопнут >PRIMARY KEY (dt, client_id) >ORDER BY (client_id,....dt) так нельзя PRIMARY KEY это префикс, вам точно dt в индексе надо? вы будете фильтровать кверяя меньше суток? логично в индес все таки полезные поля положить, типа id баннера или криэтива или tag >Стоит ли партировать по дню - в день 10-20 ярдов строк - или сразу по месяцу неправильные критерии. Сколько лет вы собираетесь данные в этой таблице хранить? Надо кол-во партиций сделать небольшим. Плюс если вы данные будете кверять по диапазону месяц или год, то дневные партиции убьют перформанс, потому что надо будет ходить по индексам в куче партиций

VячеслаV-Владимиров Автор вопроса
Denny [Altinity]
>Стоит ли добавить client_id в PARTITION BY toYYYY...

"Хранить вечно" ну неск лет точно

VячеслаV-Владимиров Автор вопроса
Denny [Altinity]
>Стоит ли добавить client_id в PARTITION BY toYYYY...

дата нужна в order by, чтоб схлопывать данные,

VячеслаV Владимиров
"Хранить вечно" ну неск лет точно

значит partition by toYYYYMM(dt) PRIMARY KEY ( channel_id, что-то_блин_полезное, toStartOfHour(dt)) ORDER BY ( channel_id, что-то_блин_полезное, toStartOfHour(dt), мусор, dt) хотя если у вас dt уже округлен до часа то partition by toYYYYMM(dt) PRIMARY KEY ( channel_id, что-то_блин_полезное, toStartOfHour(dt)) ORDER BY ( channel_id, что-то_блин_полезное, toStartOfHour(dt), мусор)

Похожие вопросы

Обсуждают сегодня

Do any of you guys have interesting projects one could join? I'm a Middle Full-Stack developer (JS/TS, React & Node)
Lev Shapiro
33
Типа вызывать GetParent и проверять на соответствие GetModuleHandle?
The Bird of Hermes
25
$res = json_decode($наша строка из респонса); $res1 = array_map(fn($o) => $o->name, $res->breadcrumbs[0]->entities); Как такое будет на Хаскеле?.. В начале весь джейсон, в ко...
Хаскель Моисеевич Гопник
19
Вопрос по диагностике ошибок (я знаю в чем, в данном конкретном примере, я знаю, как исправить, пример модельный, понятно, что в реальности бывает намного запутаннее). module...
ⰄⰎⰋⰐⰐⰑⰛⰤⰧⰧⰩⰄ ⰊⰑⰁⰓⰡⰛⰦⰕⰫ
10
Хтось використовував Vapor на Windows?
Jaroshevskii
15
Тут кста кто-нибудь NeoVim использует?
Simple Sorcerer
13
А чем вам питонисты не угодили?😂
.
79
у меня вопрос на счет .global <name> для чего это нужно если я пишу на ассемблере? только для того что бы сделать это видимым для линкера? вот что написано в докумментации GA...
Simple Sorcerer
1
Есть какой-нибудь для Delphi/FPC T*Compression(Decompression)Stream на базе LZ4/Zstd/любой другой быстрый(и хорошо сжимающий) алгоритм А ещё лучше в pure pascal А ещё лучше од...
notme
52
У меня вот только только был затык при изучении одной темы. Я настолько привык к джс, что мозг с трудом признал таки, что f и \x -> f x - это равные функции. Потому что в д...
xfides Barabanov
6
Карта сайта