В вашем случае если вы jdbc коннектором пользуетесь, там можно настроить количество сплитов, чтобы параллельно вычитывало. Но даже если вы одним воркером все делаете, по памяти упасть не должно (если вы условно дамп в паркет делаете) - там все будет на итераторах с буфферизацией и все 32 гигабайта вам не нужно никогда в памяти метериализовывать
я думал при записи происходит полная материализация
В памяти? А зачем? Записали одну row group, сбросили буффер и дальше поехали
Обсуждают сегодня