k8s, это очень плохая идея или рабочая?
Эх мб кто то после UP увидит😅
У нас работает
Были какие то подводные камни? как со скоростью? +- сколько данных в день лопатит?
Hdsf и yarn это 2 разных продукта Можно ли работать с hdfs из Spark в k8s? Можно, правда если есть на hdfs kerberos то придётся немного поприседать Имеет ли смысл? Не очень, даталокалити и норм фишек никаких не получите, местами будет даже медленней чем запихнуть в s3 все данные у нас в процессе миграции есть такая конструкция: часть данных в hdfs, часть уже переехала в s3, часть джобов ещё в yarn, но миграция в k8s тоже началась Так что все запускаются везде и ходят куда угодно
yarn это оркестратор, hdfs - распределенная файловая система, зачем душнить то) я прекрасно понимаю разницу, я специально добавил про yarn потому что ожидал ответа что spark через yarn будет быстрее)
но и минусы есть)) и обычно ради доступности и отказоустойчивости так могут и не сделать)
опять же вопрос был не про "можно" или "нельзя", посути пофигу про использовать протокол hdfs или s3a, тут скорее вопрос про скорость работы, и на сколько медленнее и на каком обьеме данных, у меня задача лопатить по 100 гигов +- и на сколько это будет медленее, если сможешь подсказать хотя бы примерно буду благодарен
Если сеть нормальная на 100 гигах особой разницы не заметишь
спарк будет быстрее через то что менее загружено и ближе. Не думаю что оркестратор имеет значение в скорости работы приложения
Если ты понимаешь, как использовать дата локалити на твоих данных, то ярн для тебя будет интереснее.
именно про эту разницу я и спрашивал)
Существенная на больших кластерах с разносам по стойкам
Обсуждают сегодня