И ещё раз спрошу про деление работы на репликах. Все

Question

И ещё раз спрошу про деление работы на репликах. Все

что предлагали с опциями не сработало, время наоборот увеличилось вдвое. Можно ли в итоге как то подключить реплики не как раунд Робин, куда уходит запрос полностью и вычисляется на одной, а делить работу между ними, если существует партицирование. И если это возможно, то где можно почитать в коде то, как реплики будут выбирать себе куски для обработки?

#backend #clickhouse #database #devops #programming #russian

0

06.07.2022

19 ответов

39 просмотров

Artem Pershin Автор вопроса

Denny [Altinity]
мечты, мечты. у вас таблицы replicated? результат...

Не сверял правильность, таблицы реплекейтед, да, одна реплика, просканило в два раза больше строк с опцией allow_allow_experimental_parallel_reading_from_replicas

0

06.07.2022

Denny [Altinity]

Artem Pershin
Не сверял правильность, таблицы реплекейтед, да, о...

ну т.е. вообще непонятно КХ понял что это реплики или нет. ОК версия-то какая у КХ ?

0

06.07.2022

Artem Pershin Автор вопроса

Denny [Altinity]
ну т.е. вообще непонятно КХ понял что это реплики ...

22.2

0

06.07.2022

Denny [Altinity]

Artem Pershin
22.2

сейчас попробовал на 1м шарде с двумя репликами. короче в такой конфигурации всегда читает с локальной реплики, потому что все данные есть локально. работает если prefer_localhost_replica=0; set allow_experimental_parallel_reading_from_replicas=1, max_parallel_replicas=2, prefer_localhost_replica=0;

0

06.07.2022

Artem Pershin Автор вопроса

Denny [Altinity]
сейчас попробовал на 1м шарде с двумя репликами. к...

А у вас как таблица партицирована? По 500к с каждой реплики прочитало?

0

06.07.2022

Denny [Altinity]

Artem Pershin
А у вас как таблица партицирована? По 500к с каждо...

в общем все там кривое и результаты кажется кривые

0

06.07.2022

Artem Pershin Автор вопроса

Denny [Altinity]
в общем все там кривое и результаты кажется кривые

Жалко, ну видимо не зря экспериментал

0

06.07.2022

Denny [Altinity]

Artem Pershin
Жалко, ну видимо не зря экспериментал

в общем разработчики были в курсе, просто не доделано

0

06.07.2022

Denny [Altinity]

Artem Pershin
Жалко, ну видимо не зря экспериментал

одна реплика select count() from rep_test1 prewhere S='a'; 0 rows in set. Elapsed: 19.412 sec. Processed 68.16 million rows, 70.17 GB (3.51 million rows/s., 3.61 GB/s.) 8 реплик set allow_experimental_parallel_reading_from_replicas=1, max_parallel_replicas=8, prefer_localhost_replica=0, use_hedged_requests=0; select count() from rep_test1 prewhere S='a'; 0 rows in set. Elapsed: 3.988 sec. Processed 68.16 million rows, 70.17 GB (17.09 million rows/s., 17.60 GB/s.)

0

06.07.2022

Artem Pershin Автор вопроса

Denny [Altinity]
одна реплика select count() from rep_test1 prewhe...

ну в 6 раз меньше время. но тут prewhere. интересно какой там алгоритм разбиения работы по рекликам и откуда оно знает что результат независим от кусков

0

06.07.2022

Denny [Altinity]

Artem Pershin
ну в 6 раз меньше время. но тут prewhere. интересн...

https://github.com/ClickHouse/ClickHouse/issues/26748

0

06.07.2022

Denny [Altinity]

Artem Pershin
ну в 6 раз меньше время. но тут prewhere. интересн...

похоже что реплика проверяет выполняет кто-то работу с этим куском или нет, т.е. скорее всего одна реплика может всю работу забрать себе и 7 будут делать ничего. вот без prewhere select uniqHLL12(S) from rep_test1_d; 1 rows in set. Elapsed: 24.430 sec. Processed 68.16 million rows, 70.17 GB (2.79 million rows/s., 2.87 GB/s.) set allow_experimental_parallel_reading_from_replicas=1, max_parallel_replicas=8, prefer_localhost_replica=0, use_hedged_requests=0; select uniqHLL12(S) from rep_test1_d; 1 rows in set. Elapsed: 4.720 sec. Processed 68.16 million rows, 70.17 GB (14.44 million rows/s., 14.86 GB/s.) это искусственно созданная идеальная таблица для allow_experimental_parallel_reading_from_replicas, в реальной жизни конечно это работать будет раз в году, при солнечной погоде.

0

06.07.2022

Artem Pershin Автор вопроса

Denny [Altinity]
похоже что реплика проверяет выполняет кто-то рабо...

хотя казалось бы group by по партицированной таблице идеально ложится в кейс. Даже не надо заморачиваться с тем что считать кол-во работы, просто тупо считать что в партициях равное кол-во работы и уже норм будет на большинстве кейсов

0

06.07.2022

Denny [Altinity]

Artem Pershin
хотя казалось бы group by по партицированной табл...

в реальной жизни финализация результата с шардов на инициаторе занимает примерно половину времени.

0

06.07.2022

Artem Pershin Автор вопроса

Denny [Altinity]
в реальной жизни финализация результата с шардов н...

странно, если на входе сотни миллионов строк , а на выходе десятки тысяч

0

06.07.2022

Denny [Altinity]

Artem Pershin
странно, если на входе сотни миллионов строк , а н...

у вас другая реальность, у меня по жизни инициатор самое проблемное место.

0

06.07.2022

Artem Pershin Автор вопроса

Denny [Altinity]
у вас другая реальность, у меня по жизни инициатор...

видимо такое распределение данных, что дистрибьютед таблица дает ускорение в n раз, где n -кол-во шардов. Но я не замерял конечно сильно детально , на глаз)

0

06.07.2022

Denny [Altinity]

Artem Pershin
видимо такое распределение данных, что дистрибьюте...

в общем оно работает только если prefer_localhost_replica=0, use_hedged_requests=0;

0

06.07.2022

Denny [Altinity] · Accepted Answer

Denny [Altinity]

мечты, мечты. у вас таблицы replicated? результат вообще правильный получился? сколько партов процессилось?

0

06.07.2022

184 похожих чатов

И ещё раз спрошу про деление работы на репликах. Все

19 ответов

Похожие вопросы