hdfs_engine_table_gzipped_data? Например, как-то увеличить размер батча или отсоотировать исходные данные по primary key, или не сжимать данные в hdfs?
тут бы понять во что упирается попробуйте CPU profiling всключить и system.trace_log для заданной query посмотреть https://github.com/Slach/clickhouse-flamegraph/ ну и погираться в настройках HDFS('hdfs://host:port/storage?param=value') https://clickhouse.tech/docs/en/engines/table-engines/integrations/hdfs/#supported-by-libhdfs3 из кандидатов на увеличение input_localread_default_buffersize dfs_prefetchsize output_default_chunksize dfs_client_read_shortcircuit_streams_cache_size но не факт что это поможет
посмотрите с какой скоростью обычные hdfs клиенты читать будут типа этого https://github.com/barakmich/go-hdfs
gz-файл c protobuf внутри, размером 15gb, hdfs dfs -get копировал за несколько минут, вставка в таблицу же отрабатывала 40 минут, это таблица на одном из шардов кластера, без реплик
спасибо, попробую построить flamegraph
protobuf на TSV можно заменить? или уже никак?
Теоретически можно, но там сложная схема около 200 столбцов , много nested-полей
ну в общем надо смотреть flamegraph
Обсуждают сегодня