Добрый день! Разбираюсь с async_insert режимом (https://clickhouse.com/docs/en/operations/settings/settings/#async-insert). В документации написано,

Question

Добрый день! Разбираюсь с async_insert режимом (https://clickhouse.com/docs/en/operations/settings/settings/#async-insert). В документации написано,

что дедупликация данных в этом режиме не работает. Можете, пожалуйста, подсказать, а что здесь подразумевается под дедупликацией данных, может на примере?

#backend #clickhouse #database #devops #programming #russian

0

03.06.2022

10 ответов

89 просмотров

.sha Автор вопроса

Константин
Клик дедублицирует данные если они в одном окне, к...

а как такая ситуация вообще может произойти? только когда клиент допускает ошибку и делает 2 одинаковых запроса в базу?

0

03.06.2022

Константин

.sha
а как такая ситуация вообще может произойти? тольк...

Насчёт двух одинаковых запросов на вставку, clickhouse тоже может их убирать.

0

03.06.2022

.sha Автор вопроса

Константин
Насчёт двух одинаковых запросов на вставку, clickh...

Ну а в целом какой основной use-case этой функциональности? Я просто пытаюсь понять, насколько критично терять дедупликацию в случае async_insert. Имеется ли тут в виду какие-то особенности работы, например, репликации по нескольким серверам, когда в результате репликации может появиться 2 одинаковых ряда

0

03.06.2022

Константин

.sha
Ну а в целом какой основной use-case этой функцион...

Я не работал с async_insert

0

03.06.2022

Denny [Altinity]

Data blocks are deduplicated. For multiple writes of the same data block (data blocks of the same size containing the same rows in the same order), the block is only written once. The reason for this is in case of network failures when the client application does not know if the data was written to the DB, so the INSERT query can simply be repeated. It does not matter which replica INSERTs were sent to with identical data. INSERTs are idempotent. Deduplication parameters are controlled by merge_tree server settings

0

03.06.2022

Max Makarov

Denny [Altinity]
Data blocks are deduplicated. For multiple writes ...

А если тот блок, который я вставил, смержился в один парт, дедупликация уже не сработает?

0

03.06.2022

Denny [Altinity]

Max Makarov
А если тот блок, который я вставил, смержился в од...

работает. там хранятся контрольные суммы последних 100 инсертов, парты не играют роли https://kb.altinity.com/altinity-kb-schema-design/insert_deduplication/

0

03.06.2022

Max Makarov

Denny [Altinity]
работает. там хранятся контрольные суммы последни...

Это работает только если таблица реплицируемая?

0

03.06.2022

Denny [Altinity]

Max Makarov
Это работает только если таблица реплицируемая?

https://kb.altinity.com/altinity-kb-schema-design/insert_deduplication/ create table test_insert ( A Int64 ) Engine=MergeTree order by A settings non_replicated_deduplication_window = 100;

0

03.06.2022

Константин · Accepted Answer

Константин

Клик дедублицирует данные если они в одном окне, как я помню в 100 строчках, если там есть дубль, то при вставке он будет удалён

0

03.06.2022

184 похожих чатов

Добрый день! Разбираюсь с async_insert режимом (https://clickhouse.com/docs/en/operations/settings/settings/#async-insert). В документации написано,

10 ответов

Похожие вопросы