Друзья, читаю туториал по ClickHouse (https://clickhouse.com/docs/en/tutorial#2-insert-the-dataset). В нем загружается датасет

Question

Друзья, читаю туториал по ClickHouse (https://clickhouse.com/docs/en/tutorial#2-insert-the-dataset). В нем загружается датасет

с такси и после этого выполняется запрос:

SELECT count() FROM trips

При этом говорится, что запрос был выполнен быстро, так как всего лишь 6 частей были обработаны. Подскажите пожалуйста, как получились эти 6 частей?

#backend #clickhouse #database #devops #programming #russian

0

03.10.2022

15 ответов

42 просмотра

Kirill Павлов Автор вопроса

Slach [altinity]
скорее всего там три файла по два миллиона записей...

Понял, спасибо!

0

03.10.2022

Kirill Павлов Автор вопроса

Slach [altinity]
скорее всего там три файла по два миллиона записей...

Суммарно count() выдал 2 млн записей. Почему три файла по 2 млн?

0

03.10.2022

Kirill Павлов Автор вопроса

Slach [altinity]
скорее всего там три файла по два миллиона записей...

Тогда по идее должно быть 2 data part?

0

03.10.2022

Slach [altinity]

Kirill Павлов
Суммарно count() выдал 2 млн записей. Почему три ф...

ну вы сказали про 6 частей... SELECT * FROM system.parts WHERE table='tips'; посмотрите там есть rows

0

03.10.2022

Slach [altinity]

Kirill Павлов
Тогда по идее должно быть 2 data part?

нет, зависит от кол-ва партиций которые затронуты партиции и парты это разные вещи там два файла суммарно два миллиона записей, но похоже разбиты на некоторое кол-во партиций... и получается 6

0

03.10.2022

Slach [altinity]

Kirill Павлов
Тогда по идее должно быть 2 data part?

да точно. там данные за три месяца... соответсвенно миллион строк из одного архива, разбиваются на три парта по одному в месячную партицию

0

03.10.2022

Kirill Павлов Автор вопроса

Slach [altinity]
да точно. там данные за три месяца... соответсвенн...

Понял, тогда в одну партицию может попасть несколько data part, количество строк в котором регулируется параметром settings-max_insert_block_size?

0

03.10.2022

Slach [altinity]

Kirill Павлов
Понял, тогда в одну партицию может попасть несколь...

да но попадают в партицию парты которые имеют строгое отношение к ней между собой партиции не перемешиваюстя (в отличии от партов которые постоянно мержатся между собой в рамках одной партиции)

0

03.10.2022

Kirill Павлов Автор вопроса

Slach [altinity]
да но попадают в партицию парты которые имеют стро...

Но ведь парты мержатся между собой, почему они в данном случае не мержатся..?

0

03.10.2022

Slach [altinity]

Kirill Павлов
Но ведь парты мержатся между собой, почему они в д...

они мержатся потом, после вставки... если клик посчитает это необходимым

0

03.10.2022

Kirill Павлов Автор вопроса

Slach [altinity]
они мержатся потом, после вставки... если клик пос...

Вот теперь понял, спасибо!

0

03.10.2022

Kirill Павлов Автор вопроса

Slach [altinity]
они мержатся потом, после вставки... если клик пос...

Можете посоветовать что-нибудь почитать в плане ликбеза устройства data part'ов и алгоритмов, которые применяются к ним?

0

03.10.2022

Slach [altinity]

Kirill Павлов
Можете посоветовать что-нибудь почитать в плане ли...

https://habr.com/ru/post/539538/

0

03.10.2022

Kirill Павлов Автор вопроса

Slach [altinity]
https://habr.com/ru/post/539538/

Спасибо!

0

03.10.2022

Slach [altinity] · Accepted Answer

скорее всего там три файла по два миллиона записей в каждом при жирных INSERT кликхаус делает новый data part на каждый миллион записей см. вот эту настройку https://clickhouse.com/docs/en/operations/settings/settings/#settings-max_insert_block_size уменьшать ее не надо... можно увеличить если у вас действительно много данных

184 похожих чатов

Друзья, читаю туториал по ClickHouse (https://clickhouse.com/docs/en/tutorial#2-insert-the-dataset). В нем загружается датасет

15 ответов

Похожие вопросы