Ну Вы же где-то нашли таблицы рамером 32 Tб ? :)
>Индексы как раз и предназначены для того, чтобы "не влезать в память с запасом", нет? ;)
Сейчас память дешёвая и её много. Большинство баз просто целиком влезает в память и тогда никакие трюки не нужны. Разве что для прогрева кэша при старте.
Но когда всё-таки не влезает, то партишининг помогает хотя бы индексы запихнуть в память.
>индексированной по "(date, something)", и при одинаковых запросах мы работаем с какой-то частью её индекса
Если мы добавляем дату в качестве первого ключа всех индексов, то да - мы работает примерно с той же частью индекса как и обычный индекс по сегментированной таблице. С одним маленьким добавлением, что добавление даты увеличивает размер индекса примерно вдвое.
Если же мы это не делаем, то случайный досуп по вторичному инлдексу будем прыгать повсему большому дереву.
>"распределить" = "забудьте об ACID"
Не совсем так. У нас есть pg_shardman, которое наше начальство никак не решитсчя выложить воткрытый доступ. Там есть эти буковки.
Кроме 'С' это вообще делается штатными средствами посгреса: postgres_fdw + 2PC.
> Ну Вы же где-то нашли таблицы рамером 32 Tб ? :) Ну, я нашёл то, что было бы таблицами размером в 32 Тб (на самом деле, меньше), если их не партиционировать. :) > Большинство баз просто целиком влезает в память и тогда никакие трюки не нужны. Отчасти, это так. Тем не менее, индексация (да и правильно применённое партиционирование) необходимы для типичных случаев OLTP. > С одним маленьким добавлением, что добавление даты увеличивает размер индекса примерно вдвое. Т.е. почему-то "date" во всех индексах Вы "теряете". А это значит, что все запросы по "узким" диапазонам date (не отбрасывающие много rows по другим условиям) проиграют. > Если же мы это не делаем, то случайный досуп по вторичному инлдексу будем прыгать повсему большому дереву. Конечно будет, но когда партиционирование сравнивают с индексацией, подразумевается, что мы это делаем (создаём аналогичные индексы). Т.е. если "там" было (date, something), то и тут будет (date, something), и т.д. И не забывайте, что мы можем сделать и CREATE INDEX ON t(something) WHERE date_field >= '2019-01-01' AND date_field < '2019-02-01', и проблемы с двойным размером тогда тоже нет. ;) > Не совсем так. У нас есть pg_shardman, которое наше начальство никак не решитсчя выложить воткрытый доступ. Там есть эти буковки. С примечаниями "мелким шрифтом"? ;) Я к тому, что "прозрачный" распределённый ACID без существенных ограничений (которые, зачастую, запросто сводят на нет все преимущества distributed database) теоретически невозможен. Т.е. если это решение "подходит" для данной базы (её легко шардировать) — замечательно, нет — это вообще не решение. :( > Кроме 'С' это вообще делается штатными средствами посгреса: postgres_fdw + 2PC. Ну, на основании этих средств, и это очень непросто.
Обсуждают сегодня