в КХ? У меня где-то 300ТБ данных в хадупе, в будущем может вырасти в 5 раз. Сколько понадобится места для КХ, с учётом отказоустойчивой конфигурации?
Взять некий кусочее данных(допустим месяц) и положить в кх, попробовать разные ORDER BY и кодеки для сжатия
в hdfs ? а там непожатые csv или паркет? Потому что разница в 100 раз может получиться
Там смесь csv, parquet
а 300TB данных с RF3 или 300TB общий размер диска всех нод? т.е. возможно что понадобится 600TB диска в КХ, проще всего протестить как выше советуют
300TB общий диск. Попробую как посоветовали выше, просто было интересно узнать приблизительную оценку. Вы сказали что может получиться 1: 0.01 если использовать сжатие, это существенно экономит расходы на дисковое пространство.
Обсуждают сегодня