Привет. Скажите, пожалуйста, если у меня кластер из 3-х хостов и

Question

Привет. Скажите, пожалуйста, если у меня кластер из 3-х хостов и

есть Distributed таблица, то в плане нагрузки, если я буду ходить всегда в один и тот же хост, но в Distributed таблицу, это чем-то хуже, чем если ходить во все хосты? (понятно, что если этот конкретный хост сдохнет, то мой код сломается, но помимо этого)

#backend #clickhouse #database #devops #programming #russian

0

13.09.2022

15 ответов

62 просмотра

.sha Автор вопроса

Andrey Dudin
Весь поток данных пойдет через эту ноду.

это-то понятно, но Distributed таблица равномерно распределит нагрузку между всеми нодами?

0

13.09.2022

Andrey Dudin

.sha
это-то понятно, но Distributed таблица равномерно ...

Зависит от ключа

0

13.09.2022

Nara

.sha
это-то понятно, но Distributed таблица равномерно ...

Должно быть включено партиционирование по правильному ключу. Потому что одна партиция будет на одном шарде, и если, скажем, это city_id, то данных по одному городу будет в разы больше, чем по другому => имбаланс. Более того, для Distributed в конфиге должен быть сконфигурен кластер со всеми нодами, где у нас шардинг. Если Distributed смотрит в локальную таблицу, она даже не знает о других машинах, и абсолютно независима. Можете покурить вот это https://kb.altinity.com/altinity-kb-setup-and-maintenance/cluster-production-configuration-guide/cluster-configuration-process/

0

13.09.2022

.sha Автор вопроса

Nara
Должно быть включено партиционирование по правильн...

сейчас посмотрю. но шард у меня всего один

0

13.09.2022

Denny [Altinity]

.sha
это-то понятно, но Distributed таблица равномерно ...

Нет. Distributed таблица сама делает очень много вычислений, она финализирует вычисления. Ваша эта нода будет сильно перегружена Если шард один, то все вычисления вообще будут только на этой ноде. Из за настройки prefer_localhost_replica

0

14.09.2022

.sha Автор вопроса

Denny [Altinity]
Нет. Distributed таблица сама делает очень много в...

Спасибо!

0

14.09.2022

Slach [altinity]

.sha
это-то понятно, но Distributed таблица равномерно ...

при SELECT ... FROM distributed GROUP BY ... ORDER BY ... на всех нодах будут запущены переписанные запросы где аггрегирующе функции будут заменены на`funcNameState` для предаггрегации и будет сделана сортировка а на ноде инициаторе дальше будет финальная аггрегация и финальная сортировка... WHERE предикаты будут проброшены на все ноды так что да, нагрузка равномерная. но если у вас запрос сложный и куча sub queries то нода инициатор будет больше нагружена по памяти и CPU и даже может в memory limit упереться

0

14.09.2022

.sha Автор вопроса

Slach [altinity]
при SELECT ... FROM distributed GROUP BY ... ORDER...

Спасибо большое! Но под нодами вы подразумеваете шарды, верно? Если у меня 1 шард и 3 реплики с одинаковыми данными, то все будет обрабатываться локально на 1 реплике, верно?

0

14.09.2022

Slach [altinity]

.sha
Спасибо большое! Но под нодами вы подразумеваете ш...

нет шард это группа нод (реплик), одна и более нода это процесс clickhouse-server если у вас 1 шард с одинаковыми репликами ... то при Engine=Distirbuted у вас есть нода инициатор запроса потом в соответсвии https://clickhouse.com/docs/en/operations/settings/settings/#settings-load_balancing рандомно выбирается реплика на которой в Underlying таблице делается предаггрегация... и финализируется на ноде инициаторе

0

14.09.2022

.sha Автор вопроса

Slach [altinity]
нет шард это группа нод (реплик), одна и более но...

Ясно, значит все таки есть смысл использовать Distributed — нагрузка будет +- равномерная на ноды, кроме доп нагрузке на ноду-инициатор

0

14.09.2022

Anton Mikhalev

.sha
Ясно, значит все таки есть смысл использовать Dist...

это очень спорное утверждение) очень сильно зависит от запроса

0

14.09.2022

Slach [altinity]

.sha
Ясно, значит все таки есть смысл использовать Dist...

смотря как random отработает я бы тупо chproxy \ haproxy \ nginx поставил перед ... и выбирал сразу из ReplicatedMergeTree engine=Distributed нужен только если у вас несколько шардов (непересекающихся наоборов данных с одинаковой структурой) его сделать в любой момент можно он данные только временные хранит при вставке... а при select ничего не хранит

0

14.09.2022

Slach [altinity]

.sha
Ясно, значит все таки есть смысл использовать Dist...

да, выше правильно сказали можно ноду инициатор перегрузить финальной аггрегацией... и сортировкой... по CPU \ RAM стреляет

0

14.09.2022

Denny [Altinity]

.sha
Ясно, значит все таки есть смысл использовать Dist...

если у вас один шард и prefer_localhost_replica=1 (по дефолту) то запросы будут выполнятся локально, остальные реплики будут курить. Distributed имеет смысл даже с одним шардом смысла ходить в один сервер всегда мало, но можно, дешевле все-таки балансировку сделать даже с DNS

0

14.09.2022

Andrey Dudin · Accepted Answer

Andrey Dudin

Весь поток данных пойдет через эту ноду.

0

13.09.2022

184 похожих чатов

Привет. Скажите, пожалуйста, если у меня кластер из 3-х хостов и

15 ответов

Похожие вопросы