конструкция: LOAD DATA LOCAL INPATH /path/to/local/data.
Собственно, имею спросить:
- если у меня локальная spark-сессия (--master=local), то верно ли, что данные по этому пути будут искать у меня на локальном хосту?
- а если у меня удалённая spark-сессия (--master=yarn), то на каком хосту будут искать данные по этому пути?
Локальному каждого екзекутора
А если папка по сети примонтирована у всех экзекуторов, то её не загрузят в таблицу N раз, по числу этих самых экзекуторов?
а, ты грузишь его, главное чтоб на драйвере был; но опять ж зависит что и как читаешь
Обсуждают сегодня