Всем привет! переезжаем на КХ и нужен совет по поводу

Lev
50тб это уже сжатых данных сейчас все хранится в...

ок. примерно столько же будет и в clickhouse

0

28.07.2022

Lev
50тб это уже сжатых данных сейчас все хранится в...

IMHO одной ноды для такого объема достаточно ну двух для HA

0

28.07.2022

Lev Автор вопроса

Slach [altinity]
ок. примерно столько же будет и в clickhouse

а сколько в процентах стоит заложить доп памяти, чтобы была хорошая производительность? таблички большие, всего около 20

0

28.07.2022

Lev
а сколько в процентах стоит заложить доп памяти, ч...

зависит от того какая у вас кардинальность при GROUP BY .. и сколько паралельных запросов 16Gb RAM может быть достаточно 32gb RAM лучше...

0

28.07.2022

Lev Автор вопроса

Slach [altinity]
зависит от того какая у вас кардинальность при GRO...

Спасибо! А по железу можете подсказать? Смотрел бенчмарки вот тут, но не понял что будет подходить для моих задач

0

28.07.2022

Lev
Спасибо! А по железу можете подсказать? Смотрел бе...

у вас Vertica on premise была? или облачная? у клика такие же требования по железу как у Вертики

0

28.07.2022

Lev
Спасибо! А по железу можете подсказать? Смотрел бе...

https://kb.altinity.com/altinity-kb-setup-and-maintenance/clickhouse-deployment-plan/

0

28.07.2022

Lev Автор вопроса

Slach [altinity]
у вас Vertica on premise была? или облачная? у кл...

Vertica была облачная, поэтому сейчас нет до конца понимания, сколько всего нужно заложить((

0

28.07.2022

Lev
Vertica была облачная, поэтому сейчас нет до конца...

Берете кусок данных(допустим месяц) заливаете в кх и гоняете ваши запросы

0

28.07.2022

Lev
Vertica была облачная, поэтому сейчас нет до конца...

а переезжаете куда? тоже в облака? или свои желези? или арендованные? CPU ядер чем больше тем лучше, память расходуется на select для group by, order by и window функций ... умножить на кол-во одновременных выборок на insert расход на буфера - 2 мегабайта на колонку примерно... умножить на кол-во одновременных вставок

0

28.07.2022

Slach [altinity]
а переезжаете куда? тоже в облака? или свои желези...

Там 50тб же)

0

28.07.2022

Dmitry [Altinity] Titov
Там 50тб же)

ой

0

28.07.2022

КХ минимум в 2-3 раза лучше жмет чем в вертика.

0

28.07.2022

Lev
а сколько в процентах стоит заложить доп памяти, ч...

50 Tb я бы сделал 50 нод по терабайту данных на ноду и памяти 64Gb на ноду если вы будете делать выборки большие из таблиц distibuted с большим кол-во комбинаций в group by то это на ноде инициаторе будет жрать память

0

28.07.2022

надо тестить на 1% проценте и экстраполировать

0

28.07.2022

Slach [altinity]
50 Tb я бы сделал 50 нод по терабайту данных на н...

да бред это, у меня полно нод и с 20TB и с 75TB

0

28.07.2022

Slach [altinity]
50 Tb я бы сделал 50 нод по терабайту данных на н...

Ну 50 нод это тот еще зверинец) Сомневаюсь что все 50тб активно в запросах учавствуют

0

28.07.2022

Lev Автор вопроса

Slach [altinity]
а переезжаете куда? тоже в облака? или свои желези...

Понял. И на джойны также память расходуется, верно? Хотим свое железо арендовать сейчас, формируем тз. А как корректно рассчитать количество нод и ядер? Особенно если есть перспектива увеличения обьема хранилища до 1пб к примеру

0

28.07.2022

Константин

Lev
Понял. И на джойны также память расходуется, верно...

Джойны 😂👍

0

28.07.2022

Lev
Понял. И на джойны также память расходуется, верно...

Join, group by, order by собсно все

0

28.07.2022

Lev
Понял. И на джойны также память расходуется, верно...

угу , но вы доку почитайте что там с JOIN в clickhouse это все таки не вертика

0

28.07.2022

Lev Автор вопроса

Slach [altinity]
угу , но вы доку почитайте что там с JOIN в clickh...

да, это уже понял(( похоже придется использовать внешние словари

0

28.07.2022

Lev
да, это уже понял(( похоже придется использовать в...

сколько таблиц у вас? сколько фактов, дименшинов?

0

28.07.2022

Lev Автор вопроса

Denny [Altinity]
сколько таблиц у вас? сколько фактов, дименшинов?

сейчас есть около 20 таблиц, из которых половина занимает большую часть памяти. фактов около 10, а дименшенов 10-20 на таблицу

0

28.07.2022

Slach [altinity]
ок. примерно столько же будет и в clickhouse

вертика жмет особым образом, там не LZ4 и не ZSTD, там скороее кодеки и lowcardinality, и только строки пожаты тем что похоже на компрессию

0

28.07.2022

Lev
сейчас есть около 20 таблиц, из которых половина з...

проблема есть если надо джойнить факты, придется все переосмыслить, и изменить подход

0

28.07.2022

Lev Автор вопроса

Denny [Altinity]
проблема есть если надо джойнить факты, придется в...

а какие подходы можете посоветовать если возникнет такая необходимость ? особенно если таблицы ещё разрастутся в 5-10 раз

0

28.07.2022