увы, не выделит. Их очень много 😔 Какие альтернативы тогда есть? Медленно в фоне лить старые данные заново в какой-нибудь replacing/collapsing merge tree, следя за тем, чтобы эта операция как можно меньше партиций за раз затрагивала?
так вы не сырые копируйте, а аггрегированные. Их уже сильно меньше, и джойны/словари могут заработать и помочь соединить одно с другим. Вы зря отказываетесь от витрин и прочих звезд аля кимбал. Что-то подобное надо делать для аналитики, хоть с кликхаусом, хоть без него.
как вы себе это представляете? очень тяжело понять что вы хотите. Типа у вас в КХ есть таблица с 30 полями и в ней 400млрд строк, и есть данные во внешней системе которые позволят обогатить эти строки и добавить еще 10 полей и надо обновить строки по ключу?
Да, что-то вроде этого.
Мы и так уже стараемся вытащить из этого хранилища как можно больше информации заранее, чтобы положить это в кликхауз в агрегированном виде. Но я не могу гарантировать, что никогда не возникнет необходимость долить туда что-то ещё.
ну заново залить тогда
зачем туда-же? Это же другие факты, скорее всего с иной гранулярностью. То что вы хотите сделать - это джойн двух разных таблиц фактов. Не надо так делать - ничего хорошего не получится, даже если база осилит. Делайте аггрегации по совместимым "измерениям" и вот их уже можно попробовать поджойнить друг с другом. По крайней мере в этом действе можно поймать смысл. В отличии от джойна разных слабо связанных фактов.
Если это абсолютно независимые факты, то я согласен, что они должны лежать отдельно, с этим проблем нет. Мне интересны были рекомендации на случай, когда что-то упустили, и зависимость таки есть 😂 У нас даже с предагрегацией будут десятки миллиардов событий в день. Джоинить такое, насколько я понял, можно и не пытаться.
Обсуждают сегодня