Хочу уменьшить кол-во данных на диске. Сейчас в базу пишем

William Ko
насколько я понял вам нужно просто лоукардиналити ...

На 25лямов я бы не стал

0

03.02.2022

Roman Y
На 25лямов я бы не стал

почему 25?

0

03.02.2022

Roman Y
На 25лямов я бы не стал

а точно не заметил этот момент

0

03.02.2022

Ada Min Автор вопроса

William Ko
насколько я понял вам нужно просто лоукардиналити ...

лоукардиналити эффективен примерно при 64к уникальных объектов. дальше чем больше тем хуже...

0

03.02.2022

Roman Y
Вы потом как то джойнить хотите хеш = строка?

Вы потом как то джойнить хотите хеш = строка?

0

03.02.2022

Ada Min Автор вопроса

да, но только для аналитических целей, т.е. скорость запроса не важна. основная цель, по максимуму сократить размер данных на диске

0

03.02.2022

Ada Min
да, но только для аналитических целей, т.е. скорос...

этой задачей сжатие занимается, колоночная БД же

0

03.02.2022

Ada Min
да, но только для аналитических целей, т.е. скорос...

А методы сжатия для колонки пробовали разные?

0

03.02.2022

Ada Min Автор вопроса

Roman Y
А методы сжатия для колонки пробовали разные?

лучшие результаты zstd(1) дает. но кажется что сжатие это неправильное направление. Так как к примеру надо часто считать кол-во уникальных товаров. С хешами это работает быстрее. Хранить и то и другое — неправильно. Плюс хеши на диске занимают в 4 раза меньше места (с учетом сжатия).

0

03.02.2022

Ada Min
лучшие результаты zstd(1) дает. но кажется что сжа...

Ну если дальше у вас джоин (или его аналог) не смущает - то решение отличное

0

03.02.2022

Ada Min Автор вопроса

Roman Y
Ну если дальше у вас джоин (или его аналог) не сму...

Да, join устраивает. Вопрос как данные записывать? Если хочется чтоб в кликхаус прилетал только один запрос на вставку в основную таблицу?

0

03.02.2022

Sergey Churin

Лучше lowcardinality, а не джойн. Союытий же мало уникальных? Тогда order by (событие, название товара). Еще дату, а не время в order by добавить перед или после события. Партиции по месяцам или дням. Вообще такой order by и сам по себе строки эти сильно сожмет даже без lowcardinality, а если мало будет, то zstd еще навесить.

0

03.02.2022

Sergey Churin
Лучше lowcardinality, а не джойн. Союытий же мало ...

А как ордер бай сжимает строки?

0

03.02.2022

Sergey Churin

William Ko
А как ордер бай сжимает строки?

ну в основном он и сжимает. Одно дело сжать a, d, e, a, x, e... другое дело a, a, a, b, b, b...

0

03.02.2022

Sergey Churin
ну в основном он и сжимает. Одно дело сжать a, d, ...

ага понял. это внутри гранулы индекса одной получается происходит

0

03.02.2022

Sergey Churin
ну в основном он и сжимает. Одно дело сжать a, d, ...

Не совсем так, LowCardinality вместо 'aaa', 'bbb', 'aa', 'bb', 'aaa', 'bbb', 'aa,', 'bb' сожмет 1,2,3,4,1,2,3,4

0

03.02.2022

William Ko
ага понял. это внутри гранулы индекса одной получа...

при селектах LowCardinality не даст снижения получаемого объёма данных, рассматривать жор памяти сервером в данном случае некорректно

0

03.02.2022

Aleksey Boltenkov
при селектах LowCardinality не даст снижения получ...

а почему некорректно? не понял

0

03.02.2022

William Ko
а почему некорректно? не понял

оно в строку преобразуется

0

03.02.2022

Aleksey Boltenkov
оно в строку преобразуется

ну вот у меня есть замеры когда именно преобразование в lowcardinality сокращает в 2.5х оперативу. некоторые запросы которые по памяти падали начинают проходить

0

03.02.2022

William Ko
ну вот у меня есть замеры когда именно преобразова...

Ну, теоретически, можно было бы сравнивать подноготную, что там за строкой лежит, но...

0

03.02.2022

Boris

Вставка в Null таблицу, на ней два MV: 1. считает хеш и пишет все колонки + хеш, но без названия в основую таблицу хранения 2. считает хеш по тому-же самому алгоритму, пишет хеш и название товара в таблицу с engine = Join/ANY (any - на всякий случай, если таки коллизия, а может и all - надо смотреть). Аналитический запрос, требующий название делает joinGet Чтобы не считать хеш повторно можно это сделать в прикладной программе, которая грузит данные. Пока в КХ нет транзакций, при ошибках может случиться, что в одну таблицу инсерт пройдет, а во вторую - нет (обещали сделать в этом году).

0

03.02.2022

William Ko · Accepted Answer