Цель - создать кластер, в котором можно выполнить долгий расчет и затем забрать результат и необходимо заново запускать задачи, если во время расчета произошло отключение узла.
посмотри apache airflow
есть гугловый dataproc или emr кластера там можно сабмитить как mapreduce так и spark
Обсуждают сегодня