Всем привет. Пытаюсь оптимизировать джойн двух больших таблиц, смотрю в

Question

Всем привет. Пытаюсь оптимизировать джойн двух больших таблиц, смотрю в

сторону бакетинга. Начал его использовать, в плане всё стало хорошо, Exchange исчез. Но есть вопрос - в чем принципиальная разница в спарке между repartition(key1,key2,key3).save() и bucketBy(key1,key2,key3).save() ? Я же по идее могу просто вызвать репартишенинг по ключам джойна перед сохранением? эффект же тот же будет?

#hadoop #russian #software

0

12.10.2021

5 ответов

49 просмотров

Aleksandr Автор вопроса

iKaleeninskii
да, эффект тот же, но во втором случае он постоянн...

что-то не очень понимаю, что значит «постоянный» и «материализован». У меня что так, что так N паркет файлов появляется в бакене

0

12.10.2021

Excellent Name

Про бакетировании инфа запишется в table properties, и если читать дальше с помощью .table, то количество партиций, и их расположение будет фиксированным - удобно, если табличка редко меняется, но часто джойнится с другими. В ином случае нужно каждый раз при чтении делать .repartition, чтобы получить такой результат.

0

12.10.2021

Aleksandr Автор вопроса

Excellent Name
Про бакетировании инфа запишется в table propertie...

так можно же вызывать .repartition при записи ? и при чтении тогда не придётся

0

12.10.2021

Grigory Pomadchin

Aleksandr
так можно же вызывать .repartition при записи ? и ...

жоская идея

0

12.10.2021