Нам на создание копии сырых данных в clickhouse никто ресурсы,

Question

Нам на создание копии сырых данных в clickhouse никто ресурсы,

увы, не выделит. Их очень много 😔 Какие альтернативы тогда есть? Медленно в фоне лить старые данные заново в какой-нибудь replacing/collapsing merge tree, следя за тем, чтобы эта операция как можно меньше партиций за раз затрагивала?

#backend #clickhouse #database #devops #programming #russian

0

05.10.2021

7 ответов

23 просмотра

Denny [Altinity]

как вы себе это представляете? очень тяжело понять что вы хотите. Типа у вас в КХ есть таблица с 30 полями и в ней 400млрд строк, и есть данные во внешней системе которые позволят обогатить эти строки и добавить еще 10 полей и надо обновить строки по ключу?

0

05.10.2021

Viacheslav Chernyshev Автор вопроса

Denny [Altinity]
как вы себе это представляете? очень тяжело понять...

Да, что-то вроде этого.

0

05.10.2021

Viacheslav Chernyshev Автор вопроса

Boris
так вы не сырые копируйте, а аггрегированные. Их ...

Мы и так уже стараемся вытащить из этого хранилища как можно больше информации заранее, чтобы положить это в кликхауз в агрегированном виде. Но я не могу гарантировать, что никогда не возникнет необходимость долить туда что-то ещё.

0

05.10.2021

Denny [Altinity]

Viacheslav Chernyshev
Да, что-то вроде этого.

ну заново залить тогда

0

05.10.2021

Boris

Viacheslav Chernyshev
Мы и так уже стараемся вытащить из этого хранилища...

зачем туда-же? Это же другие факты, скорее всего с иной гранулярностью. То что вы хотите сделать - это джойн двух разных таблиц фактов. Не надо так делать - ничего хорошего не получится, даже если база осилит. Делайте аггрегации по совместимым "измерениям" и вот их уже можно попробовать поджойнить друг с другом. По крайней мере в этом действе можно поймать смысл. В отличии от джойна разных слабо связанных фактов.

0

05.10.2021

Viacheslav Chernyshev Автор вопроса

Boris
зачем туда-же? Это же другие факты, скорее всего ...

Если это абсолютно независимые факты, то я согласен, что они должны лежать отдельно, с этим проблем нет. Мне интересны были рекомендации на случай, когда что-то упустили, и зависимость таки есть 😂 У нас даже с предагрегацией будут десятки миллиардов событий в день. Джоинить такое, насколько я понял, можно и не пытаться.

0

05.10.2021

Boris · Accepted Answer

так вы не сырые копируйте, а аггрегированные. Их уже сильно меньше, и джойны/словари могут заработать и помочь соединить одно с другим. Вы зря отказываетесь от витрин и прочих звезд аля кимбал. Что-то подобное надо делать для аналитики, хоть с кликхаусом, хоть без него.

184 похожих чатов

Нам на создание копии сырых данных в clickhouse никто ресурсы,

7 ответов

Похожие вопросы