таблица партицирована, то мы получаем, что табличная функция deltaLake не подтягивает колонку партицирования?
Не менее интересен вопрос:
Есть возможность инсертить в CH из Трино. Но как-то не очень хочется добавлять лишний слой в интеграцию и может возникнуть вопрос с производительностью
И, наконец, вопрос - можно ли использовать (настроить) использование в функции deltaLake Hive Metastore?
Первый вопрос, про с3 же. Да, директории в таблицу не попадут, только файлы. Следовательно партиций не будет
Черт. А как тогда с помощью deltaLake читаете одну партицию?
Речь же про https://clickhouse.com/docs/ru/engines/table-engines/integrations/s3?
Есть таблица в Delta Lake. Сама по себе. Я хочу использовать табличную функцию deltaLake() Сейчас сделал доп. Колонку равную колонке партицирования Чтоб ее видеть. Но тогда, думаю, Select * from deltaLake() Where my_column=123 Не будет учитывать партиции Я прав? P.S. Вобщем залил таблицу и попробовал сделать запрос через Трино и через табличную функцию CH. Трино отрабатывает мгновенно. CH - безумный тормоз
да по идее должен учитывать партиции, видимо движок еще очень сырой. Лучше в чате клика про это спросить
Естественно спросил. Ноль эмоций..
Кликхаус не умеет в партицирование на s3
S3 не deltaLake. У дельты метаданные лежат в логах. Оттуда можно читать. Но вроде пофиксили это. Хызы. Надо смотреть. У меня относительно старая версия CH
Партиции лежат всё равно в "папках"
А версия клика где пофиксили известна?
Последняя 23.6 - не пофиксили
А как это поможет?
Хочу попробовать repartition ("my_column") Ну и optimize z-order по колонке + ещё одной. Теоретически эффект должен быть аналогичный partitionBy + z-order (но тут хызы)
Все равно непонятно. В любом случае ридется читать все файлы; Оптимайз по идее поможет с кластеризацией, но каталог сканить придется целиком. Кмк, это вообще не юзабельно.
Обсуждают сегодня