TABLE table1
`app_id` Int64,
`event_name` LowCardinality(String),
`event_time` DateTime,
`attr1` String,
`attr2` String,
)
ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(toDate(event_time))
ORDER BY (app_id, event_name)
SETTINGS index_granularity = 8192, enable_mixed_granularity_parts = 1
Запрос 1
SELECT
app_id,
attr1,
anyLast(attr2) AS attr2
FROM
(
SELECT app_id, attr1, attr2
FROM table1
WHERE (app_id in (1,2,3)) AND (event_name IN ('install', 'event'))
ORDER BY app_id, event_time
)
GROUP BY app_id, attr1;
Запрос 2
SELECT
app_id,
attr1,
anyLast(attr2) AS attr2
FROM
(
SELECT app_id, attr1, attr2
FROM table1
WHERE (app_id in (1,2,3)) AND (event_name IN ('install', 'event'))
ORDER BY event_time
)
GROUP BY app_id, attr1;
Разница между запросами только в том, что во втором из ORDER BY убран app_id
Помогите понять почему Запрос 2 отрабатывает в 2 раза быстрее первого? Я думал что будет наоборот, так как app_id идёт первым в ключе сортировки, то для КХ будет меньше работы при сортировке и последующей группировке.
>Я думал что будет наоборот, так как app_id идёт первым иногда эта оптимизация вредит. Т.е. в olap неиспользование индексов зачастую улучшает перфоманс
Понял, может быть где-то можно почитать о логике планировщика запросов кроме исходников?
так а нету планировщика, нечего читать. если order by таблицы и запроса совпадает в префиксе , то индекс будет использован.
т.е. order by запроса должен полностью совпадать с префиксом и при частичном совпадении по начальным колонкам табличный order by никогда не применится?
если в таблице order by a,b то в запросе должно быть order by a или order by a,b или order by a, d вплоть до того что если будет where a=1 order b -- то индекс не будет использован, надо писать where a=1 order a, b
Обсуждают сегодня