the current process
Правильные настройки для CatBoost заданы - https://github.com/catboost/catboost/tree/master/catboost/spark/catboost4j-spark#spark-cluster-configuration ?
У спарк сессии нету ни объекта task, ни объекта executor. Как их выставить? Экзекьюторы могу выставлять в PYSPARK_SUBMIT_ARGS. Выставил --executor-cores 1 (по дефолту task.cpus = 1 вроде бы) Ошибка: Py4JJavaError: An error occurred while calling o118.fit. : java.lang.RuntimeException: Error while executing workers Caused by: java.util.concurrent.ExecutionException: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 530.0 failed 4 times, most recent failure: Lost task 0.3 in stage 530.0. Reason: Container marked as failed. Exit status: 134. Container exited with a non-zero exit code 134. Error file: prelaunch.err. На кластере включена динамическая аллокация. Мб в этом проблема? Или не хватает памяти у драйвера или экзекьютеров? Проверил версию скалы - 2.11, совпадает с пакетами для катбуста.
Поставил параметры как в гитхабе. Получились такие параметры у PYSPARK_SUBMIT_ARGS: --master yarn --deploy-mode client --driver-memory 128g --executor-memory 32g --conf spark.task.cpus=4 --conf spark.executor.cores=4 pyspark-shell Ошибка: Py4JJavaError: An error occurred while calling o119.fit. : java.lang.RuntimeException: Error while executing workers Caused by: java.util.concurrent.ExecutionException: org.apache.spark.SparkException: Job aborted due to stage failure: Aborting TaskSet 530.0 because task 0 (partition 0) cannot run anywhere due to node and executor blacklist. util/network/socket.h:76: setsockopt() failed for reuse addr Container exited with a non-zero exit code 134. Error file: prelaunch.err.
Обсуждают сегодня