hash join в спарке не умеет в спилл на диск же?
Там же вроде фолбек на sorted merge если хештаблица превышает размер В чате даже код сбрасывали, когда разбирались можно ли енфорснуть сортмерж или нет (нет, нельзя, если совсем в кишки не лезть)
Там помнится где-то внутри ByteToBytesMap лежит, который мемори консьюмер. А у них вроде спилл привязан к глобальным конфигам. Но тут могу и соврать - давно в те глубины погружался
Ну шафл спил это другое
Интересно, потому что в этом случае должен быть сорт... Типа сначала эстимация размера хэштаблицы?
Хз, что там, что при мердж сорте по идее должен шпиллиться набор строк по ключу одного из датасетов если нет возможности сделать джойн только на итераторах или этот буффер не вписывается в конфиг по памяти
так сорт всегда на мэперах случается поэтому фетч забирает уже отсортированные файлы
Обсуждают сегодня