что шардинг скорее зло, чем добро, но у нас что-то не стыкуется. Мы провели эксперимент:
Есть несколько таблиц со строковым полем N. Значение в поле N пересекается между 7 таблицами с очень большой вероятностью (~80%).
Мы слили все таблицы в одну, добавив enum поле. На выходе получили вариант, в котором слитые в одну таблицу данные занимают в 1.4 раза больше места в сжатом виде, чем по шардам. Мы полагали, что получим экономию места за счет лучшего сжатия колонки N, но это не так. Почему так происходит?
Может в шардах данные более однородные? Или. Остались неактивные партиции?
Обсуждают сегодня