загружаю цсв, он распределяется на ноды автоматически, либо все ноды должны иметь доступ к файлу?
а как хочешь грузить? по-разному) если это локальный файл обычный он тупо на драйвер грузанет если разбит на кусочки то попытается грузить на все ноды кластера и тогда всем нодам надо иметь доступ ко всем файлам если это хдфс может поблочно паралелить схема партицирования завзяна на схему разбиения файлов вобщем
Csv ж вроде не будет сам паралелиться, не? Я бы перетащив на hdfs, сделал write
Да я это и спрашиваю. Типо, лучше просто залить цсв в хдфс и все ноды смогут грузить его оттуда, верно? Либо, как-то загружать в кластер, но это не совсем профитно выглядит вроде бы)
Обсуждают сегодня