Привет, есть небольшой вопрос по Databricks. Ingestion Time Clustering. > Ingestion

Time Clustering is enabled by default on Databricks Runtime 11.2 and Databricks SQL (version 2022.35 and above). All unpartitioned tables will automatically benefit from ingestion time clustering when new data is ingested. We recommend customers to not partition tables under 1TB in size on date/timestamp columns and let ingestion time clustering automatically take effect.

1. Без разницы когда была создана табличка? Даже если на Runtime 9? То есть при чтении с клиентов 11.2 (кластер или SQL) типа он начнет как-то накапливать информацию по timestamp полю? и быстрее получать данные? Как она вообще узнает по какому timestamp полю ей начать оптимизацию, если я ничего не указал?
2. Или есть что прописать, чтобы зафорсить использование? Вот тут написано например:
> Databricks recommends running OPTIMIZE with ZORDER BY using a column that matches the ingestion order.
3. Если я сделаю ZORDER BY не только по ней, но и по другой колонке это сломает этот механизм?

В интернете как-то пусто на эту тему....
Я конечно попробую наверно, но там 1ТБ табличка, не хотелось бы сравнивать текущее кастомное партиционирование с чем-то вообще не понятным )

2 ответов

6 просмотров

Время ingestion можно брать к примеру из delta log. Да, даже если создана в предыдущем рантайме будет работать. Иногда новые фичи требуют table protocol update, но не в этом случае. Детальнее : https://docs.databricks.com/en/delta/feature-compatibility.html Форсить ничего не нужно, итак будет работать. Zorder ничего не ломает. Всегда лучше применять zorder к колонкам которая содержит много разных значений. Каждая дополнительная колонка описанная в zorder будет несколько замедлять запросы содержащие только одну из них в фильтрах, но ускорять те, где они упоминаются вместе. Поэтому надо думать когда zorder делать по одной, а когда брать несколько. Не рекомендуется использовать больше четырех.

Artem
Время ingestion можно брать к примеру из delta log...

Ну и статистика по ней должна собираться ;-)

Похожие вопросы

Обсуждают сегодня

вопрос: кто как решает вопрос с динамической подгрузкой скриптов для отдельных страниц с включенным turbo router?
Sergei Toroptsev
25
Это что теперь, любой бот сможет принимать платежи без ебли с юр лицами?
Lencore
8
Не догоняю немного каким боком тут эппл Вот есть веб (мини) апп, который по факту веб сайт, просто в телеге веб вью и если там оплата, то нежно вот эти приседания?
e\\/gen
7
Друзья, за кем?
Magic
12
ого, спасибо Никит, ты как всегда кладезь нужной инфы! Сейчас пойду копаться, а мне релиз создать как и версию самого плагина? типа 1.0.8?
Alex Blaze
9
Сonst magicTgHTML = (text, entities) => { let processedText = text; let offsetShift = 0; entities.forEach(entity => { const { offset, length, type, url, ...
Андрей
1
Всем привет. Кто-то может подсказать, как можно перевести значения Selection поля, если список значений в нем формируется динамически? Я изначально их получаю из selection дру...
Наталья Селезнева
6
Почему Telegram пишет, что объект media не найден, хотя на самом деле я его передаю? Делаю на urllib, без зависимостей, так надо. Вызываю метод sendMediaGroup с таким JSON: ...
Alexey S
1
кстати о стайлгайдах, хотел бы снова опднять вопрос 1. Использование string в полях типа sale_order_id = field.Many2one('sale.order', string='Sale Order'). Кто как делает? И п...
Sergej R
3
Ребятки, для простенького тг бота с вебаппом на c# какой стэк/фреймворк посоветуете?
Mars BATYA [NYА]
4
Карта сайта