данный момент разрабатываю pipline впервые, гружу данные в clickhouse(использую файлы в папке), но clickhouse позволяет загружать дубликаты. Что делать в таком случае?
Сделать архитектуру с помощью которой файлов там не будет?
Это ок, так и будет.
Но вопрос все равно интересный, что насчет дубликатов и уникальности? Кто что делает в таком случае?
движок поменять на реплесинг
https://clickhouse.tech/docs/ru/engines/table-engines/mergetree-family/replacingmergetree/
Но тама есть особенность, дубли сразу не уйдут, а может и совсем не уйдут.
решение есть на эту особенность?
Вручную делать OPTIMIZE, но это как я понимаю не рекомендуется часто делать. Если дублей мало я бы забил и на этапе select это решал просто.
удаляем дубликаты до КХ кассандрой, сам КХ не может смержить, не хватает скорости дисков
интересно, спасибо за инфу
т.е. у кх все хорошо, например есть 5 партов в месяц размером по 200ГБ, если пытаться мержить в один парт чтобы удалить дубликаты, диски задыхаются и селекты не выполняются, ну такой мерж параллельно с инсертами идет несколько дней
Обсуждают сегодня