с driver-а jar-ки spark-а при submit-е
я
- закинул все spark/jars/*.jars на hdfs
- и указал spark.yarn.jars = hdfs:///spark/jars/*.jar
теперь при каждом запуске spark-submit архив не грузится, но я вижу кучу сообщений что
Source and destination file systems are the same. Not copying hdfs://10.123.66.30:9000/spark/jars/spark-sql_2.12-3.2.1.jar
вопрос в лоб: это как-то можно убрать?
вопрос в целом: как можно это организовать еще?, может стоит хранить spark-дистрибутив просто на каждой node-е, и как-то указать всем нодам SPARK_HOME...?
Если кратко: На спарк сабмите происходит загрузка всех jar на hdfs Обычно в /users/{username}/.spart_applictions/{app_id} В момент локализации ноде менеджер скачивает их на локал фс и строит класпас Так как у тебя один и тот же хдфс, то спарк решает что скачивать, а потом заливать на хдфс не нужно (зачем насиловать сеть и гонять данные туда сюда) Просто указывает это к обязательной локализации
Обсуждают сегодня