184 похожих чатов

Какими параметрами для мерджтрии лучше сжать данные? Дата, инт64,инт64, флоат64,флоат64.

Использовать другие кодеки на столбцы? Сейчас таблица 40 гигов сжатая и 45 разжатая..

21 ответов

20 просмотров

Скорей всего у вас не правильный ORDER BY, покажите DDL таблицы ?

порядком колонок в sorting key от low-cardinality значений к higher-cardinality

Илья-Тищенко Автор вопроса
ivan
порядком колонок в sorting key от low-cardinality ...

Идёт дата и идентификатор. Идентификаторов уникальных больше чем уникальных дат

рандомы нельзя сжать, значения вообще могут повторяться в столбцах?? самое простое поставить в конфиге zstd по дефолту

Илья-Тищенко Автор вопроса
Denny [Altinity]
рандомы нельзя сжать, значения вообще могут повтор...

Только даты. Походу придётся менять сжатие. Спасибо

Илья Тищенко
Только даты. Походу придётся менять сжатие. Спасиб...

а int / float они коррелируют между собой в столбце? типа растут как датчики или колеблются вокруг чего-то?

Илья-Тищенко Автор вопроса
Denny [Altinity]
а int / float они коррелируют между собой в столбц...

Это актив и его коэффициент. По сути все уникально

Илья-Тищенко Автор вопроса
Denny [Altinity]
а int / float они коррелируют между собой в столбц...

-- analitics.fct_coefficient definition CREATE TABLE analitics.fct_coefficient ( dttm DateTime, pair_id UInt64, pair_rev_id UInt64, price_coef Nullable(Float64), price_coef_rev Nullable(Float64) ) ENGINE = MergeTree PARTITION BY toYYYYMMDD(dttm) PRIMARY KEY pair_id ORDER BY (pair_id, dttm) SETTINGS index_granularity = 8192;

Илья-Тищенко Автор вопроса
Denny [Altinity]
а int / float они коррелируют между собой в столбц...

-- analitics.fct_coefficient definition CREATE TABLE analitics.fct_coefficient ( dttm DateTime, pair_id UInt64, pair_rev_id UInt64, price_coef Nullable(Float64), price_coef_rev Nullable(Float64) ) ENGINE = MergeTree PARTITION BY toYYYYMMDD(dttm) PRIMARY KEY pair_id ORDER BY (pair_id, dttm) SETTINGS index_granularity = 8192;

Илья Тищенко
-- analitics.fct_coefficient definition CREATE TA...

занятно, вы отвечали, что у вас ключ "дата и идентификатор", т.е. я понял, что сначала идёт значение с меньшим числом уникальных значений а на самом деле у вас "идентификатор и timestamp" )

Илья-Тищенко Автор вопроса
ivan
занятно, вы отвечали, что у вас ключ "дата и идент...

это текущее состояние. я пробовал и и по другому ничего не поменялось

Илья Тищенко
-- analitics.fct_coefficient definition CREATE TA...

да просто ZSTD(1) или ZSTD(2) в конфиге, но если там просто числа рандомные, то естественно их не сжать и кодеки не помогут, если там есть что сжимать то ZSTD(2) жмет в среднем лучше чем Codec

Denny [Altinity]
рандомы нельзя сжать, значения вообще могут повтор...

философский вопрос про компрессию zstd, очевидно, лучше жмёт, чем lz4, но это же не бесплатно, и он должен быть более "cpu прожорлив". товарищи из databricks в свое время писали, что иногда лучше недожать — а всё потому что в облачных системах место на диске обходится потребителю дешевле, чем cpu time. не знаете, есть ли какие-нибудь тесты на тему, как полный переезд на zstd в клике влияет на использование (и итоговую стоимость) cpu?

Илья Тищенко
Спасибо протестирую

Для Float в новой версии завезли кодек, он хорош когда уникальные значения

ivan
философский вопрос про компрессию zstd, очевидно, ...

у меня в системе 90% CPU свободно, никак не влияет. влияет у пользователей с загруженым CPU и высоким QPS, типа если тысяча запросов в минуту и все реалтайм - 10 мс, то заметна разница между ZSTD(1) и LZ4

Константин
Для Float в новой версии завезли кодек, он хорош к...

хорош? кажется в тестах он всегда хуже чем ZSTD и чем Gorrila

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта