Managed Tables работают быстрее External Tables.
У меня сейчас есть Azure ADLS2 (blob storage) и на нем Delta Table (External Tables). Смонтировано к кластеру в dbfs.
Что реально даст какое-то преимущество если будет Managed Tables?
очевидно что managed всегда быстрее
на каком уровне это очевидно, можно подробнее) это же все работало\работает через Hive Metastore (теперь Unity будет) типа в директорию к файлам добавляется метаинфа и можно читать данные через SQL.. Какая разница то? Где вообще хранятся managed в бриксах ?
ладно, про всегда я погорячился
есть ссылка на выступление?
ссылка на выступление
ни будет ничего быстрее, работают одинаково
не смотрел, но это вроде про юнити.
прост там Performance Optimization разница какая-то (скрин выше) я вообще не понял засчет чего, поэтому и предполагаю что managed быстрее, не не понимаю ваще
дельта таблица это просто каталог в s3. Нет разницы сделаешь ты его external или managed. на скрине выше видимо под external имеется ввиду обычные хайв таблицы
Managed таблицы такие же, как и external, за исключением того, что Databricks выполняет некоторую оптимизацию вместо вас. Если нужны external, то нужно найти время сконфигурировать запуск команд ANALYZE TABLE, OPTIMIZE ZORDER BY, VACUUM в зависимости от интенсивности вносимых в таблицу изменений. Соответственно, Managed могут быть быстрее если команда не знает / не понимает как работают вышеперечисленные команды или просто игнорируют необходимость их запуска
что те, что те, лежат в дата лейке
ну вакуум в любом случае же делать
Обсуждают сегодня