в S3. Но у меня таблички replicated. Можно конечно на каждой ноде указать свой путь хранения в S3, но тогда данные по сути будут дублироваться. Можно ли 2ум нодам в 1ом шарде указать один и тот же путь для хранения данных? Или нужно разные и тогда, по идее дедупликация должна пройти на уровне S3?
Есть для этого вроде волшебный параметр, одну минуту...
allow_s3_zero_copy_replication
да, уже по дефолту так SELECT * FROM system.merge_tree_settings WHERE name = 'allow_remote_fs_zero_copy_replication' Query id: 6e44fcf6-9883-4771-a1be-b9e4868d3f20 Row 1: ────── name: allow_remote_fs_zero_copy_replication value: 1 changed: 0 description: Allow Zero-copy replication over remote fs. type: Bool
Те можно их нацелить в 1 папку и все будет работать?
да https://clickhouse.com/docs/en/operations/storing-data/#zero-copy
не знаете, для NFS не планируется?
https://github.com/ClickHouse/ClickHouse/discussions/33998#discussioncomment-2048485
сказано что not ready for production при этом включено подефолту и похоже что не работает , копии файлов в s3 остаются и не ужадяются
это для s3 работает, а s3 путь одинаковый ? т.е. копии не могут оставаться, они просто не могут появиться
все одинаковое, на скрине видно что одинаковые файлы в одну кучу свалило, сценарий был такой, я заливаю сразу данные котыре под ttl move попадают, все льюется прямо в s3 и в моменте 6G все занимало, но через какотое время партиции вроде схлопнулись, может сами а может потому что я OPTIMIZE запускал и вот все остановилось в таком виде как на скринах
вот что в zk , что бы это ни значило оно так сейчас выглядит
запускал запрос на вставку дважды, примерно такое INSERT INTO FUNCTION remote('x4-clickhouse:9000' ... SELECT * FROM ... SETTINGS insert_distributed_sync=1, insert_quorum=2
есть system.remote_data_paths там смотрите это файл с одной реплики или двух, может у вас optimize файлов наделал
нет такой таблицы , без optimize тоже по двараза все сохранятся, и даже если изменить alter ttl то те данные которые сами переезжают то же дублируются
Значит не правильно работает
если такой таблицы нет?
Если файлы два раза. Таблица появилась в последних версиях
дейтсвительно фигня какаято , у мнея нету и табилцы system.part_log а я помню что видел ее раньше в дрпугих инсталяциях
select version() part_log можно выключить
да явно выключена
снес (truncate) даныне и обновил версию, после того как партиции устаканились вот такое образовалось, я смотрел по конкретным партам, и вот некоторые дедуплицировались, но их меньшинство как видишь, при этом все файлы парта либо дедуплицируются либо весь парт по два раза записывается в разные remote_path
ну создайте issue с конфигами и примерами как создать таблицы, инсертами ...
Обсуждают сегодня