Всем привет, вопрос hdfs на yarn дружить со spark на

Hdsf и yarn это 2 разных продукта Можно ли работать с hdfs из Spark в k8s? Можно, правда если есть на hdfs kerberos то придётся немного поприседать Имеет ли смысл? Не очень, даталокалити и норм фишек никаких не получите, местами будет даже медленней чем запихнуть в s3 все данные у нас в процессе миграции есть такая конструкция: часть данных в hdfs, часть уже переехала в s3, часть джобов ещё в yarn, но миграция в k8s тоже началась Так что все запускаются везде и ходят куда угодно

0

09.11.2023

Sergej Khakhulin Автор вопроса

Alex
Hdsf и yarn это 2 разных продукта Можно ли работа...

yarn это оркестратор, hdfs - распределенная файловая система, зачем душнить то) я прекрасно понимаю разницу, я специально добавил про yarn потому что ожидал ответа что spark через yarn будет быстрее)

0

09.11.2023

Alisher Umarov

Sergej Khakhulin
yarn это оркестратор, hdfs - распределенная файлов...

но и минусы есть)) и обычно ради доступности и отказоустойчивости так могут и не сделать)

0

09.11.2023

Sergej Khakhulin Автор вопроса

Alex
Hdsf и yarn это 2 разных продукта Можно ли работа...

опять же вопрос был не про "можно" или "нельзя", посути пофигу про использовать протокол hdfs или s3a, тут скорее вопрос про скорость работы, и на сколько медленнее и на каком обьеме данных, у меня задача лопатить по 100 гигов +- и на сколько это будет медленее, если сможешь подсказать хотя бы примерно буду благодарен

0

09.11.2023

🦦

Sergej Khakhulin
опять же вопрос был не про "можно" или "нельзя", п...

Если сеть нормальная на 100 гигах особой разницы не заметишь

0

09.11.2023

Elenhil

Sergej Khakhulin
yarn это оркестратор, hdfs - распределенная файлов...

спарк будет быстрее через то что менее загружено и ближе. Не думаю что оркестратор имеет значение в скорости работы приложения

0

09.11.2023