Всем привет кто-нибудь пользуется kafka-engine, сталкивались с разными проблемами, которые приводили

Question

ClickHouse не тормозит

Anton Shchukin

Всем привет кто-нибудь пользуется kafka-engine, сталкивались с разными проблемами, которые приводили

к дупликации данных?

#backend #clickhouse #database #devops #programming #russian

0

16.09.2020

13 ответов

31 просмотр

Anton Shchukin Автор вопроса

Alexey Churkin
Я какое-то время назад смотрел в исходники kafkaen...

вот именно. есть ли какой-нибудь експ по разрешению таких ситуаций?

0

16.09.2020

Alexey Churkin

Anton Shchukin
вот именно. есть ли какой-нибудь експ по разрешени...

Ну мы написали отдельный сервис, который пишет в Replicated* таблицы идемпотентными вставками. Clickhouse для replicated таблиц делает deduplication последних N вставок при условии, что их контент и порядок данных совпадают.

0

16.09.2020

Anton Shchukin Автор вопроса

Alexey Churkin
Ну мы написали отдельный сервис, который пишет в R...

replicated? может быть replacing?

0

16.09.2020

Alexey Churkin

Anton Shchukin
replicated? может быть replacing?

Нет, именно replicated

0

16.09.2020

Alexey Churkin

Anton Shchukin
replicated? может быть replacing?

https://clickhouse.tech/docs/ru/engines/table-engines/mergetree-family/replication/

0

16.09.2020

Anton Shchukin Автор вопроса

Alexey Churkin
Нет, именно replicated

kafka-key тоже пишется, replicated дал подобного эффекта

0

16.09.2020

Alexey Churkin

Anton Shchukin
kafka-key тоже пишется, replicated дал подобного э...

Ну с replacingmergetree вы вынуждены будете либо следить за дубликатами, делать optimize final, либо переписывать все select-ы

0

16.09.2020

Anton Shchukin Автор вопроса

Alexey Churkin
Ну с replacingmergetree вы вынуждены будете либо с...

по поводу последнего утверждения доп вопрос: как можно оптимизировать селекты под дюпы?

0

16.09.2020

Alexey Churkin

Anton Shchukin
по поводу последнего утверждения доп вопрос: как м...

Все зависит от вашего профиля нагрузки. Может быть вам и FINAL в селектах подойдет, а может и GROUP BY придется делать в подзапросе.

0

16.09.2020

Denny [Altinity]

конечно, это же кафка. Там без дубликатов нельзя.

0

16.09.2020

Anton Shchukin Автор вопроса

Denny [Altinity]
конечно, это же кафка. Там без дубликатов нельзя.

Хехехе :) А можно попросить более развёрнуто?

0

16.09.2020

Denny [Altinity]

Anton Shchukin
Хехехе :) А можно попросить более развёрнуто?

ну в кафке очень тяжело сделать без дубликатов, даже если использовать exactly once -- это не имеет отношения к КХ, это вообще

0

16.09.2020

Alexey Churkin · Accepted Answer

Alexey Churkin

Я какое-то время назад смотрел в исходники kafkaengine - там на ура могут возникать дубликаты. Данные пишутся в clickhouse, а после этого клиент пробует закомитить оффсет. Пробует он сделать это максимум 3 раза, если мне не изменяет память.

0

16.09.2020

184 похожих чатов

Всем привет кто-нибудь пользуется kafka-engine, сталкивались с разными проблемами, которые приводили

13 ответов

Похожие вопросы