Добрый день, товарищи. Выполняю такой запрос(Хочу посчитать количество унакальных значений

Question

Добрый день, товарищи. Выполняю такой запрос(Хочу посчитать количество унакальных значений

в столбце за сутки):
SELECT count(distinct stream_id) FROM БАЗА.data WHERE timestamp between '2020-10-06 00:00:00' and '2020-10-06 23:59:59'

Выполняется он так долго:
1 rows in set. Elapsed: 998.163 sec. Processed 2.67 billion rows, 12.94 GB (2.68 million rows/s., 12.96 MB/s.)

Версия Кликхаус: 20.5.2 revision 54435

Размер базы: 68 ГБ (Прирост в месяц сейчас +7 ГБ)

Нагрузка CPU во время выполнения: 50% - 60%

Сервер: 8 CPU / 16 RAM

Возможно ли как-то посчитать количество записей быстрее и с меньшими ресурсами?
Странно что для суток перебирается в базе аж 12.94 GB ведь в сутки нет столько данных

#backend #clickhouse #database #devops #programming #russian

0

07.10.2020

5 ответов

17 просмотров

Валерий Большунов Автор вопроса

Проблема решилась изменением timestamp на date. Видимо timestamp тяжело обрабатывается

0

07.10.2020

Slach [altinity]

Валерий Большунов
Проблема решилась изменением timestamp на date. Ви...

у тебя PARTITION BY toYYYYMM(date) какой нибудь стоит в структуре таблицы и ORDER BY date поэтому так быстро и посчиталось потому что легче определить какие куски данных вытащить а с timestamp у тебя приходится фильтровать все 2.67 миллиарда строк

0

07.10.2020

Валерий Большунов Автор вопроса

Ivan Kalinin
Зависит от сортировки и партиционирования. Попробу...

Спасибо

0

07.10.2020

Валерий Большунов Автор вопроса

Slach [altinity]
у тебя PARTITION BY toYYYYMM(date) какой нибудь ст...

А, ясно, спасибо

0

07.10.2020