UInt64,
....
report_date Date,
country_code LowCardinality(String)
)
engine = ReplicatedMergeTree('/clickhouse/tables/{shard}/reports_v0/traffic', '{replica}')
PARTITION BY toStartOfMonth(report_date)
ORDER BY (did, country_code)
SETTINGS index_granularity = 512;
```
Делаю вот такой запрос
```
with ids as (
select c.cid did, alpha2 country_code
from reports_v0.competitors c
join reports_v0.iso2_locations l on l.alpha2 = c.country_code
prewhere c.did = cityHash64('google.com')
group by did, country_code
)
select sum(total_traffic)
from reports_v0.traffic t
prewhere did in (select ids.did from ids)
and report_date = '2022-04-01'
and country_code = 'US';
```
В логах следующее:
```
Selected 2/79 parts by partition key, 2 parts by primary key, 2779/15452 marks by primary key, 2779 marks to read from 2283 ranges
...
Read 1422477 rows
```
При этом всего строк 468 (если sum(total_traffic) заменить на count(1)). В cte ids 10911 строк.
Почему прочитано 1422477 строк (2779 * 512). Должно же быть в худшем случае 468 * 512 = 239616?
UPD: сам спросил, сам ответил)) Должно быть даже больше 10911 * 512 ~ 5 лямов в худшем случае))
Функция count не читает файлы с жесткого диска, она обращается к PK, как я помню
Обсуждают сегодня