Привет! На кластере реализована следующая архитектура: cronjob -> kafka -> stream table

Question

Привет! На кластере реализована следующая архитектура: cronjob -> kafka -> stream table

-> MV -> ReplicatedReplacingMergeTree table.
В kafka могут попадать дублирующиеся записи, которые не нужно записывать в CH.
Нужно построить над конечной таблицей несколько ReplicatedSummingMergeTree MV, сейчас при попадении дубликатов в таблицу данные в MV дублируются.
MV с argMaxState работает медленно ((
Как можно избежать вставки дублирующих записей из kafka?

#backend #clickhouse #database #devops #programming #russian

0

04.12.2020

10 ответов

30 просмотров

Munir

Дублирующие записи в разных батчах прилетают в кх? Если в одном, то разве в первом mv их нельзя исключить? Если в разных, то только конечным запросом их убирать (даже если и появилась возможность вешать mv над mv, но replacingmergetree работает в фоне, поэтому поставив над ним summingmergrtree, туда в любом случае улетят дубликаты, так как фон не успеет отработать)

0

04.12.2020

serge Автор вопроса

Munir
Дублирующие записи в разных батчах прилетают в кх?...

Да, прилетают в разных батчах. Как можно отфильтровать уникальные записи по PK в рамках одного батча с помощью MV?

0

04.12.2020

Denny [Altinity]

Munir
Дублирующие записи в разных батчах прилетают в кх?...

Какой фон? Mv над mv над mv получает записи от инсерта. Не важно сколько там глубина. Не от таблицы.

0

04.12.2020

Munir

Denny [Altinity]
Какой фон? Mv над mv над mv получает записи от инс...

Сорри, с общим принципом наврал, но с конечным результатом нет.

0

04.12.2020

Munir

serge
Да, прилетают в разных батчах. Как можно отфильтро...

В mv поставить group by.

0

04.12.2020

serge Автор вопроса

Munir
В mv поставить group by.

Спасибо!

0

04.12.2020

Munir

serge
Спасибо!

Сейчас меня опять поругают,) но я бы попробовал (а вдруг сработает) сделать в mv not in из view над таблицей (которая после mv) . Если все оттюнить и вставка не очень масштабная, то есть вероятность, что может помочь.

0

04.12.2020

Denny [Altinity]

Munir
Сейчас меня опять поругают,) но я бы попробовал (а...

Ага сработает если один инсерт в день. Ну нельзя проверить есть такой ключ в таблице или нет. Это слишком медленно. И не работает для многопоточности. Два одновременных инсерта навставляют дубликаты.

0

04.12.2020

Munir

Denny [Altinity]
Ага сработает если один инсерт в день. Ну нельзя ...

Я не решение предлагал, а вариант, который стоит рассмотреть. Мы не знаем какие данные, какие дубликаты, какой трафик льётся. Поэтому есть вероятность, что дубликаты по дате, и если групбаем убирать внутри батча, то останутся только в соседних. Есть вероятность, что там же и ключи, то выборка двух-трех батчей по ключам будет не слишком дорогая. Ну и есть вероятность, что там один поток на шард.)

0

04.12.2020

Denny [Altinity] · Accepted Answer

Denny [Altinity]

КХ тут не поможет. Надо делать до.

0

04.12.2020

184 похожих чатов

Привет! На кластере реализована следующая архитектура: cronjob -> kafka -> stream table

10 ответов

Похожие вопросы