тогда будет выигрыш по сравнению с одной большой табличкой?
B-Tree вообще достаточно хорошо (логарифмически) толерантна к размеру таблицы , т.е. поиск и вставка в 10-раз большую таблицу будет всего в log(10) раз медленее. Если у нас есть монотонно возрастающее поле типа timestamp и большинство запросов относятся к последнему периоду, то ... партицирование тоже особо не нужно, потому как запрсы будут лазить в одну и ту же часть дерева.
А вот если ключи распределены случайным образом. то мы начинаем судорожно метаться по всему дереву. И тут большое значение имеет влезает ли индекс целиком в память или нет. Если нет, то практически каждая операция с дерева должна будет читать данные (по крайней мере листовую страницу с диска). random read на HDD - это 100 операций в секунду. С SSD уонечно веселее, но всё равно проигрыш на несколько порядков, по сравнению с доступом в память. Так вот партицированая табличка позволяет выполнять запрос select * from T where part_key=? and sec_key=?; только на маленьком индексе от одного партишина. Если большинство запросов относится к одному партишину (партицирование по дате), то есть шансы, что эти индексы влезут в память и вопсик будет выполняться на порядок быстрее.
Проще обслуживание - это огромный плюс.
Обсуждают сегодня