Distributed-Таблицы и параллельное выполнение. Товарищи, подскажите кто знает. Есть 1 шард, 3

Question

Distributed-Таблицы и параллельное выполнение. Товарищи, подскажите кто знает. Есть 1 шард, 3

реплики. Хотелось бы ускориться за счёт паралельного выполнения запроса на всех репликах. Создаю реплицируемую таблицу и над ней Distributed

CREATE TABLE default.d_test ON CLUSTER CH_CLUSTER_1
(
EventDate DateTime,
CounterID UInt32,
UserID UInt32
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/d_test', '{replica}')
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)

CREATE TABLE IF NOT EXISTS default.d_test_all1 ON CLUSTER CH_CLUSTER_1
(
EventDate DateTime,
CounterID UInt32,
UserID UInt32
) ENGINE = Distributed(CH_CLUSTER_1, default, d_test)

При выполнении вижу такое:
┌─host───────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ 172.17.192.119 │ 9000 │ 0 │ │ 2 │ 1 │
│ 172.17.192.118 │ 9000 │ 0 │ │ 1 │ 1 │
└────────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘
┌─host───────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ 172.17.192.117 │ 9000 │ 0 │ │ 0 │ 0 │
└────────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘

Установил следующие параметры:
max_parallel_replicas = 3 - Максимальное количество используемых реплик каждого шарда при выполнении запроса. Для консистентности (чтобы получить разные части одного и того же разбиения), эта опция работает только при заданном ключе сэмплирования. Отставание реплик не контролируется.
parallel_replicas_count = 3 - не документирован

Выполняю запрос:
select EventDate, count() as cnt from d_test_all group by EventDate order by cnt desc limit 20
или
select UserID, count() as cnt from d_test_all group by UserID order by cnt desc limit 20

Ожидал увидеть что-то подобное, как при создании таблиц или хотя бы обмен данными между репликами по портам 9000 или 9009, но не вижу ни того, ни другого.
И непонятно вообще выполняется ли запрос на всех репликах или только на одной.

В Changelog для ClickHouse release 19.5.2.6, 2019-04-15 написано следующее:
"Allow to use parallel_replicas_count > 1 even for tables without sampling (the setting is simply ignored for them). In previous versions it was lead to exception. #4637 (Alexey Elymanov)"
Что вроде как подразумевает параллельное выполнение запроса на parallel_replicas_count. Создавал таблицу d_test и с сэмплированием и без, но изменений не увидел.

работает ли вообще описанная мной схема и если работает, то как? Или может я что-то не так делаю?

#backend #clickhouse #database #devops #programming #russian

0

27.08.2019

1 ответов

37 просмотров

Denny [Altinity] · Accepted Answer

Denny [Altinity]

set prefer_localhost_replica=0

0

27.08.2019

184 похожих чатов

Distributed-Таблицы и параллельное выполнение. Товарищи, подскажите кто знает. Есть 1 шард, 3

1 ответов

Похожие вопросы