с driver-а jar-ки spark-а при submit-е
                  
                  
                  я
                  
                  
                  - закинул все spark/jars/*.jars на hdfs
                  
                  
                  - и указал spark.yarn.jars = hdfs:///spark/jars/*.jar
                  
                  
                  теперь при каждом запуске spark-submit архив не грузится, но я вижу кучу сообщений что 
                  
                  
                  Source and destination file systems are the same. Not copying hdfs://10.123.66.30:9000/spark/jars/spark-sql_2.12-3.2.1.jar
                  
                  
                  вопрос в лоб: это как-то можно убрать?
                  
                  
                  вопрос в целом: как можно это организовать еще?, может стоит хранить spark-дистрибутив просто на каждой node-е, и как-то указать всем нодам SPARK_HOME...?
                  
                  
                
Если кратко: На спарк сабмите происходит загрузка всех jar на hdfs Обычно в /users/{username}/.spart_applictions/{app_id} В момент локализации ноде менеджер скачивает их на локал фс и строит класпас Так как у тебя один и тот же хдфс, то спарк решает что скачивать, а потом заливать на хдфс не нужно (зачем насиловать сеть и гонять данные туда сюда) Просто указывает это к обязательной локализации
Обсуждают сегодня