pylivy) для простого запуска Spark-запросов из Airflow, да всё как-то не настрою нормально: сессии умирают до того, как я успеваю скачать результат. Догадываюсь, что проблема и решение простые, просто я не знаю на что смотреть. Подробнее описал здесь:
- https://stackoverflow.com/questions/77487284/why-livy-session-is-not-found-after-yarn-application-succeed
- https://github.com/acroz/pylivy/issues/108
_Вообще смущают темпы его разработки. Хотел попробовать ещё года два назад, только сейчас добрался - а проект всё ещё в инкубаторе. В единственном Python-клиенте последний коммит 2 года назад. Более живых альтернатив нет? Мне нужен просто удобный способ запускать PySpark-запросы и выкачивать csv-шки без заморочек с предварительной загрузкой исходников в HDFS и т.д._
Ливи немножко дэд
Ага, то есть мне не показалось
Более живые альтернативы : EMR, Databricks
Пользуюсь и livy, и airflow, и spark-submit. Livy использую так.. по мелочам, чтоб запустить какую-нибудь фигню из Юпитера. По быстрому. Серьёзные скрипты конечно запускаю с мастер-ноды кластера. У Airflow - есть SparksubmitOperator (или как-то так).
Обсуждают сегодня