паркетов, необходимо, используя pyspark или spark sql, организовать upsert, по типу того же PostgreSQL. Возможно ли что-то подобное сделать? Кто-нибудь сталкивался с подобным кейсом?
Смотри hudi, delta
худи лучше не смотреть.. https://iceberg.apache.org/ https://github.com/delta-io/delta этих можно подружить с glue metastore и на s3 работают без переименования путей файлов (что на s3 очень медленно)
Слышал про delta, интересное решение. Но а какого-нибудь, пусть и костыльного, но силами самого pyspark или spark sql нет?)
я о таких не знаю 🤷♂
Обсуждают сегодня