Привет! Как-то можно ускорить insert into replicated_table select * from

Question

Привет! Как-то можно ускорить insert into replicated_table select * from

hdfs_engine_table_gzipped_data? Например, как-то увеличить размер батча или отсоотировать исходные данные по primary key, или не сжимать данные в hdfs?

#backend #clickhouse #database #devops #programming #russian

0

07.04.2021

7 ответов

28 просмотров

Slach [altinity]

посмотрите с какой скоростью обычные hdfs клиенты читать будут типа этого https://github.com/barakmich/go-hdfs

0

07.04.2021

Sergey Zakharov Автор вопроса

Slach [altinity]
посмотрите с какой скоростью обычные hdfs клиенты ...

gz-файл c protobuf внутри, размером 15gb, hdfs dfs -get копировал за несколько минут, вставка в таблицу же отрабатывала 40 минут, это таблица на одном из шардов кластера, без реплик

0

07.04.2021

Sergey Zakharov Автор вопроса

Slach [altinity]
тут бы понять во что упирается попробуйте CPU prof...

спасибо, попробую построить flamegraph

0

07.04.2021

Slach [altinity]

Sergey Zakharov
gz-файл c protobuf внутри, размером 15gb, hdfs dfs...

protobuf на TSV можно заменить? или уже никак?

0

07.04.2021

Sergey Zakharov Автор вопроса

Slach [altinity]
protobuf на TSV можно заменить? или уже никак?

Теоретически можно, но там сложная схема около 200 столбцов , много nested-полей

0

07.04.2021

Slach [altinity]

Sergey Zakharov
Теоретически можно, но там сложная схема около 200...

ну в общем надо смотреть flamegraph

0

07.04.2021

Slach [altinity] · Accepted Answer

тут бы понять во что упирается попробуйте CPU profiling всключить и system.trace_log для заданной query посмотреть https://github.com/Slach/clickhouse-flamegraph/ ну и погираться в настройках HDFS('hdfs://host:port/storage?param=value') https://clickhouse.tech/docs/en/engines/table-engines/integrations/hdfs/#supported-by-libhdfs3 из кандидатов на увеличение input_localread_default_buffersize dfs_prefetchsize output_default_chunksize dfs_client_read_shortcircuit_streams_cache_size но не факт что это поможет

184 похожих чатов

Привет! Как-то можно ускорить insert into replicated_table select * from

7 ответов

Похожие вопросы