184 похожих чатов

Ребят, может подсказать кто-нибудь? Есть табличка ReplacingMergeTree, есть в ней

дубли. При чём дубли в неожиданных местах, раз в несколько месяцев просто появляются и никуда не исчезают. Запись в таблицу постоянно происходит, ну и схлопывание более-менее нормально отрабатывает, а тут столкнулись с дублями. Подскажите куда копать, как исправить, если возможно, и почему старые записи не оптимизируются одновременно с новыми. Спасибо

2 ответов

16 просмотров

Merges are eventual and may never happen. It depends on the number of inserts that happened after, the number of parts in the partition, size of parts. If the total size of input parts bigger than the maximum part size then they will never be merged. https://clickhouse.tech/docs/en/operations/settings/merge-tree-settings/#max-bytes-to-merge-at-max-space-in-pool https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/replacingmergetree/ Thus, ReplacingMergeTree is suitable for clearing out duplicate data in the background in order to save space, but it doesn’t guarantee the absence of duplicates.

Причин, почему в Replacing таблицах дубли много. Самый первый вопрос, - имеете ли вы дело с дублями потому что они ЕЩЁ не схлопнулись, или потому что для некоторых записей дубли и НЕ ДОЛЖНЫ схлопнуться. Соответственно, приостановить запись в таблицу, затем либо успешный OPTIMIZE FINAL, либо добавить FINAL к SELECTу, считающему uniqExact по ключу (ну или как вы выявляете дубли). И если дублей после этого не будет - значит по каким-то причинам они ЕЩЁ не схлопывались. ("Ещё" в обычном состоянии может затянуться до бесконечности). Но если после этого всё равно дубли - значит либо всё-таки предыдущий случай (у кликхауса могли быть причины не до предела мерджить (превышение максимального размера парта, например), либо другая группа причин: эти дубли не могли и не должны были схлопнуться. Например, не схлопываются, если записи, образующие дубль попали в разные партишны. Также в случае ReplicatedReplacing таблиц, поверх которых Distributed, с которым мы и работаем, дубли могут получаться, когда записи на разных серверах (т.е. шардирование должно учитывать потребности Replacing таблиц)

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта