184 похожих чатов

Distributed-Таблицы и параллельное выполнение. Товарищи, подскажите кто знает. Есть 1 шард, 3

реплики. Хотелось бы ускориться за счёт паралельного выполнения запроса на всех репликах. Создаю реплицируемую таблицу и над ней Distributed

CREATE TABLE default.d_test ON CLUSTER CH_CLUSTER_1
(
EventDate DateTime,
CounterID UInt32,
UserID UInt32
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/d_test', '{replica}')
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)

CREATE TABLE IF NOT EXISTS default.d_test_all1 ON CLUSTER CH_CLUSTER_1
(
EventDate DateTime,
CounterID UInt32,
UserID UInt32
) ENGINE = Distributed(CH_CLUSTER_1, default, d_test)

При выполнении вижу такое:
┌─host───────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ 172.17.192.119 │ 9000 │ 0 │ │ 2 │ 1 │
│ 172.17.192.118 │ 9000 │ 0 │ │ 1 │ 1 │
└────────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘
┌─host───────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ 172.17.192.117 │ 9000 │ 0 │ │ 0 │ 0 │
└────────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘

Установил следующие параметры:
max_parallel_replicas = 3 - Максимальное количество используемых реплик каждого шарда при выполнении запроса. Для консистентности (чтобы получить разные части одного и того же разбиения), эта опция работает только при заданном ключе сэмплирования. Отставание реплик не контролируется.
parallel_replicas_count = 3 - не документирован

Выполняю запрос:
select EventDate, count() as cnt from d_test_all group by EventDate order by cnt desc limit 20
или
select UserID, count() as cnt from d_test_all group by UserID order by cnt desc limit 20

Ожидал увидеть что-то подобное, как при создании таблиц или хотя бы обмен данными между репликами по портам 9000 или 9009, но не вижу ни того, ни другого.
И непонятно вообще выполняется ли запрос на всех репликах или только на одной.

В Changelog для ClickHouse release 19.5.2.6, 2019-04-15 написано следующее:
"Allow to use parallel_replicas_count > 1 even for tables without sampling (the setting is simply ignored for them). In previous versions it was lead to exception. #4637 (Alexey Elymanov)"
Что вроде как подразумевает параллельное выполнение запроса на parallel_replicas_count. Создавал таблицу d_test и с сэмплированием и без, но изменений не увидел.

работает ли вообще описанная мной схема и если работает, то как? Или может я что-то не так делаю?

1 ответов

8 просмотров

set prefer_localhost_replica=0

Похожие вопросы

Обсуждают сегодня

Какой-то там пердун в 90-х решил, что есть какая-то разная типизация. Кого вообще это волнует?
КТ315
49
void terminal_scroll() { memmove(terminal_buffer, terminal_buffer + VGA_WIDTH, buffer_size - VGA_WIDTH); memset(terminal_buffer + buffer_size - VGA_WIDTH, 0, VGA_WIDTH); ...
Егор
47
Всем привет! Подскажите, пожалуйста, в чем ошибка? Настраиваю подключение к MySQL. Либы лежат рядом с exe. Все как по "учебнику"
Евгений
16
А можете как-то проверить меня по знаниям по ассемблеру?
A A
132
Здравствуйте! У меня появилась возможность купить книгу "Изучай Haskell во имя добра!". Но я где-то слышал, что эта книга устарела. Насколько это правда??
E
22
Здравствуйте! Я вот на stepic решаю задачи на хаскеле https://stepik.org/lesson/8443/step/8?unit=1578 мой код import Data.List (isInfixOf) removing :: String -> [String] ->...
E
10
Камрады, кто тесно работал с vtv, хотел уточнить. Ширина column задаётся жёстко на этапе создания дерева или можно в рантайме ее менять программно (не мышкой)?
Ed Doc
10
да ладно ... что там неочевидного ? глянуть в исх-ки датасета и/или кверика чтобы понять в каком месте и как выполняется обращения к св-вам blablaSQL - минутное дело, даже е...
Сергей
7
Здесь для arm кто-нибудь кодит ?
Nothing
52
Всем привет, у меня есть сервер принимающий входящие HTTP подключения, как проверить, что подключение было через прокси или нет, есть какие то поля в заголовках по которым мо...
DS
8
Карта сайта