ошибка:
ALTER TABLE jaeger_index_local ON CLUSTER test_cluster_two_shards MODIFY TTL now() + toIntervalDay(14)
>>> Cannot execute replicated DDL query, maximum retries exceeded
Полагаю, что это связано с тем, что уже есть очередь на alter + из-за того, что утеряны некоторые parts, удалены в кх, но остались в кипере... в логах спамят следующие ошибки:
2022.09.07 20:11:35.691972 [ 251 ] {} <Error> default.jaeger_index_local (ReplicatedMergeTreePartCheckThread): No replica has part covering 20220722_128257_128274_4 and a merge is impossible: we didn't find a smaller part with the same max block.
2022.09.07 20:11:35.692011 [ 251 ] {} <Error> default.jaeger_index_local (ReplicatedMergeTreePartCheckThread): Part 20220722_128257_128274_4 found in queue and some source parts for it was lost. Will check all source parts.
2022.09.07 20:11:35.694238 [ 211 ] {} <Error> default.jaeger_index_local (ReplicatedMergeTreePartCheckThread): No replica has part covering 20220722_128257_128269_3 and a merge is impossible: we didn't find a smaller part with the same max block.
2022.09.07 20:11:35.696010 [ 185 ] {} <Error> default.jaeger_index_local (ReplicatedMergeTreePartCheckThread): No replica has part covering 20220725_122375_122386_1 and a merge is impossible: we didn't find a smaller part with the same max block.
2022.09.07 20:11:35.723678 [ 220 ] {} <Error> default.jaeger_index_local (ReplicatedMergeTreePartCheckThread): No replica has part covering 20220725_122375_123103_2 and a merge is impossible: we didn't find a smaller part with the same max block.
2022.09.07 20:11:35.723704 [ 220 ] {} <Error> default.jaeger_index_local (ReplicatedMergeTreePartCheckThread): Part 20220725_122375_123103_2 found in queue and some source parts for it was lost. Will check all source parts
Каким образом можно сообщить кликхаусу, что можно забыть об этих parts? Пытался дропнуть эти parts, но кх не находит их ни на одном сервере кластера.
Немного конфига: https://pastila.nl/?0122fc45/c0423fc284adac79bb7733eba420adae
Буду рад любой помощи или совету, спасибо.
https://kb.altinity.com/altinity-kb-useful-queries/parts-consistency/#compare-the-list-of-parts-in-zookeeper-with-the-list-of-parts-on-disk https://kb.altinity.com/upgrade/removing-lost-parts/
Удалил parts в кипере, часть ошибок ушла, но всё также продолжает спамить ошибками вида: 2022.09.09 14:52:29.222514 [ 208 ] {} <Error> default.jaeger_index_local (ReplicatedMergeTreePartCheckThread): Part 20220819_209076_210927_24 found in queue and some source parts for it was lost. Will check all source parts. 2022.09.09 14:52:29.223450 [ 282 ] {} <Error> default.jaeger_index_local (ReplicatedMergeTreePartCheckThread): No replica has part covering 20220819_210910_210927_1 and a merge is impossible: we didn't find a smaller part with the same min block. Пытаюсь найти данные в system.zookeeper с таким названием, безуспешно, в system.parts тоже нет. Подскажите, пожалуйста, где ещё можно поискать эти parts?
оно есть в system.mutations ? select * from system.mutations where not is_done ?
kill mutation потом смотрите ошибки, если они прекратились, повторяем ALTER TABLE jaeger_index_local ON CLUSTER test_cluster_two_shards MODIFY TTL now() + toIntervalDay(14)
кластер перезагрузил, проверил что в system.mutations пусто, но ошибки не прекратились :( где ещё можно попробовать найти эти партсы?
что в system.replication_queue
https://pastila.nl/?025630eb/00b282d7a886cc2d16bac35eddfbd3da
│ default │ jaeger_index_local │ 10.72.134.46 │ 3 │ queue-0024801056 │ GET_PART │ 2022-08-19 20:44:59 │ 0 │ │ 20220819_210910_210927_1 │ [] подключитесь к ZK и удалите queue-0024801056 из replica_path || '/queue/' и выполните system restart replica вот тут для справки смотрите https://github.com/ClickHouse/ClickHouse/issues/10368
Спасибо, попробую.
Удалил из кипера очереди, rmr /clickhouse/tables/c7d16c9c-e954-4d85-b660-24e4d23164cd/02/replicas/10.72.134.46/queue/queue-0024089225 но всё равно продолжает спамить теми же ошибками... в system.mutations пусто, кластер перезагружал, реплики перезагружал(system restart replicas) в replication_queue: https://pastila.nl/?025630eb/bfd8215047603087d7940c5c14221ef5 Уже и не знаю куда ещё можно смотреть
я не понял сейчас >подключитесь к ZK и удалите queue-0024801056 из replica_path || '/queue/' и выполните system restart replica >>Удалил из кипера очереди, rmr /clickhouse/tables/c7d16c9c-e954-4d85-b660-24e4d23164cd/02/replicas/10.72.134.46/queue/queue-0024089225 в очереди queue-0024801056 --- т.е. я вам сказал удалить 0024801056 вы удалили 0024089225, 0024801056 остался, ну и в чем вопрос?
очереди искал по статье, поэтому удалил другую. Сейчас выполнил ваши рекомендации и ошибка ушла. Спасибо огромное!
Обсуждают сегодня