184 похожих чатов

Всем привет! Создал таблицу с агрегациями по идентификатору девайса, дням

ивента и геохашами. Таблица партиционирована по дате ивента. Тесты показывают, что запросы к ней работаю медленнее, чем к основной таблице. В чем может быть причина? create table db_name.agg_table_name_local on cluster '{cluster}'
(
event_date date,
device_id String,
geo_hash_5 String,
geo_hash_6 String,
geo_hash_7 String,
geo_hash_8 String,
cnt AggregateFunction(sum, UInt32)
)
engine = ReplicatedAggregatingMergeTree()
PARTITION BY toYYYYMMDD(event_date)
order by (device_id, geo_hash_8, geo_hash_7, geo_hash_6, geo_hash_5, event_date)

CREATE TABLE db_name.agg_table_name on cluster '{cluster}' AS db_name.agg_table_name_local
ENGINE = Distributed('{cluster}', db_name, agg_table_name_local, sipHash64(device_id));


select
geo_hash_8,
sumMerge(cnt)
from db_name.agg_table_name
WHERE device_id GLOBAL IN (select device_if from tmp_merged_device_list)
AND geo_hash_8 IN (...)
AND geo_hash_7 IN (...)
AND geo_hash_6 IN (...)
AND geo_hash_5 IN (...)
AND event_date BETWEEN '2023-02-01' AND '2023-06-30'
GROUP BY 1;

11 ответов

6 просмотров

- сколько записей в день в основной и Agg таблице? - зачем GLOBAL IN используете если шардируете по девайсам, это самая медленная часть

Igor-Gorbenko Автор вопроса
Konstantin Ilchenko
- сколько записей в день в основной и Agg таблице?...

1. В основной таблице 17.5B записей, в AGG 1.4B 2. Перед финальной выборкой идет сбор списка устройств из DISTRIBUTED таблицы, без GLOBAL запрос не отрабатывает

Igor Gorbenko
1. В основной таблице 17.5B записей, в AGG 1.4B 2...

- имхо, из опыта, нет смысла в таких AGG таблицах, которые только х10 меньше сырой. я обычно стараюсь на 2-3 порядка хотя бы уменьшать - а как шардирована эта distributed таблица? шардируйте по sipHash64(device_id) это должно решить ваши вопросы

А в чем идея хранить все разрешения хешей? Почему нельзя просто самый мелкий?

Igor-Gorbenko Автор вопроса
Denny [Altinity]
А в чем идея хранить все разрешения хешей? Почему ...

Хороший вопрос... но с бэкенда могут приходить разные запросы, от очень большого количества geo_hash_9 (тогда проще заменить одним geo_hash_2). Тогда размер query будет несколько тысяч строк кода. Какие можете посоветовать лучшие практики на этот счет?

Igor Gorbenko
Хороший вопрос... но с бэкенда могут приходить раз...

Кмк в кх есть функции которые могут сделать из одного геохеша другой

Igor-Gorbenko Автор вопроса
Igor Gorbenko
Можете пример привести?

https://clickhouse.com/docs/en/sql-reference/functions/geo/geohash Но именно такой нету. Но у геохеша надо просто отрезать конец, т.е. функция substr

Igor-Gorbenko Автор вопроса
Denny [Altinity]
https://clickhouse.com/docs/en/sql-reference/funct...

Если данные в таблице отсортированы по geo_hash_9, то фильтрация по части подстроки не приведет к полному сканированию и будет работать так же эффективно? Например: WHERE left(geo_hash_9, 2) = ‘th’

Похожие вопросы

Обсуждают сегодня

Всем привет. Ребят подскажите пожалуйста. Вопрос по дизасемблировани. Начну с начала. У меня есть скомпилированная программа на ГО (я разработчик) - в ней есть защита лицензии...
Zloy
11
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
@MrMiscipitlick А можешь макрос написать, который будет вычислять смещение относительно переданных меток? Просто .label1-.label2, и вернуть значение.
КТ315
35
А еще в перле можно уже @arr1 + @arr2?
Sergei Zhmylove
53
здравствуйте. совершаю вот такую вещь: strcpy(line, (char)current_number); где current number — неподписанный шорт, line — массив чаров. ругань следующая: main.c:29:30: error...
Roberto's Ширгозиев
13
Привет всем. появился вопрос. Разрабатываю сайт, в данный момент он запущен. Хостинг beget. Добавляю на сайт яндекс метрику с помощью полей client-settings (взято отсюда http...
Andrew
2
Заметил в ghci 9.4.8: > :t (<*>) @((->)_) (<*>) @((->)_) :: (w -> (a -> b)) -> (w -> a) -> w -> b Разве не должно (w -> (a -> b)) быть записано как (w -> a -> b)? Это баг, ил...
Михаил
13
Подобного рода ;Следующие три строки это директивы ассемблера, ;которые можно не задавать, т.к.работаем в Visual Studio. ;Символ ";" - это начало однострочного комментария ...
Егор Анелькин
3
Или ты челендж хочешь?
Ilya Shvechikov
7
Подскажите, где смотреть результат выполнения программы? Код: ;.686 ;Система команд процессора 686 ;.MODEL FLAT,stdcall ;Модель памяти плоская, станда...
Егор Анелькин
5
Карта сайта