есть много файлов в S3 и я хочу сделать с ними map reduce (а в идеале работать как с большим dataframe как в dask). В Kubeflow есть pipelines sdk и еще есть spark-operator, я путаюсь что из них использовать для этого (или оба?). Если первое, то можно сделать компоненты-воркеры в пайплайне и запустить их параллельно (при этом не понятно как динамически выделять воркеры чтобы оптимально использовать ресурсы?). Если второе, то как спарк должен вписываться в пайплайн? Я не знаток спарка, может ли он исходя из ресурсов в кластере динамически аллоцировать воркеры?
В Spark при создании сессии явно указывается, сколько нужно выделить ресурсов на воркеры. Если используется ресурс-менеджер (yarn, кубер), то они раскидывают воркеры на ноды в зависимости от их текущей нагрузки
Обсуждают сегодня