то Файлы (допустим csv) должны быть на каждой ноде? И если так, то если они будут в hdfs, то Спарк необходимо устанавливать поверх yarn?
неважно, где и как запускается спарк, он всегда умеет читать из hdfs
Тоесть в обычном stand-alone режиме, все ноды смогут читать и забирать файлы из hdfs, верно?
Спасибо
Есть ли какие-то преимущества у запуска спарка под yarn?
да, если больше 30 юзеров
Обсуждают сегодня