нодами по, допустим, 32гб рам. И есть бд без какого-либо специального коннектора. Когда считываешь данные в спарк из бд, если датасет больше 32 гб, то всё это дело отваливается, потому что данные сначала должны целиком куда-то упасть, а только потом быть распределены между нодами? Потому что дистрибуции данных, партиций нет - всё читается балком из базы.
или я крокодил?
Не, в общем случае это вовсе не обязательно
Обсуждают сегодня