184 похожих чатов

Distributed-Таблицы и параллельное выполнение. Товарищи, подскажите кто знает. Есть 1 шард, 3

реплики. Хотелось бы ускориться за счёт паралельного выполнения запроса на всех репликах. Создаю реплицируемую таблицу и над ней Distributed

CREATE TABLE default.d_test ON CLUSTER CH_CLUSTER_1
(
EventDate DateTime,
CounterID UInt32,
UserID UInt32
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/d_test', '{replica}')
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)

CREATE TABLE IF NOT EXISTS default.d_test_all1 ON CLUSTER CH_CLUSTER_1
(
EventDate DateTime,
CounterID UInt32,
UserID UInt32
) ENGINE = Distributed(CH_CLUSTER_1, default, d_test)

При выполнении вижу такое:
┌─host───────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ 172.17.192.119 │ 9000 │ 0 │ │ 2 │ 1 │
│ 172.17.192.118 │ 9000 │ 0 │ │ 1 │ 1 │
└────────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘
┌─host───────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ 172.17.192.117 │ 9000 │ 0 │ │ 0 │ 0 │
└────────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘

Установил следующие параметры:
max_parallel_replicas = 3 - Максимальное количество используемых реплик каждого шарда при выполнении запроса. Для консистентности (чтобы получить разные части одного и того же разбиения), эта опция работает только при заданном ключе сэмплирования. Отставание реплик не контролируется.
parallel_replicas_count = 3 - не документирован

Выполняю запрос:
select EventDate, count() as cnt from d_test_all group by EventDate order by cnt desc limit 20
или
select UserID, count() as cnt from d_test_all group by UserID order by cnt desc limit 20

Ожидал увидеть что-то подобное, как при создании таблиц или хотя бы обмен данными между репликами по портам 9000 или 9009, но не вижу ни того, ни другого.
И непонятно вообще выполняется ли запрос на всех репликах или только на одной.

В Changelog для ClickHouse release 19.5.2.6, 2019-04-15 написано следующее:
"Allow to use parallel_replicas_count > 1 even for tables without sampling (the setting is simply ignored for them). In previous versions it was lead to exception. #4637 (Alexey Elymanov)"
Что вроде как подразумевает параллельное выполнение запроса на parallel_replicas_count. Создавал таблицу d_test и с сэмплированием и без, но изменений не увидел.

работает ли вообще описанная мной схема и если работает, то как? Или может я что-то не так делаю?

1 ответов

13 просмотров

set prefer_localhost_replica=0

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта