пандасом читает постгрю по чанкам, делает преобразования, заливает паркетами в S3. Целиком датафрейм этой постгри в ОЗУ не влезает. Спарк кластер нам в этом кейсе не доступен, даст ли какое-то преимущество замена пандаса на спарк и spark.read.jdbc на этой машинке?
использование спарка без воркеров какихто почти всегда медленнее будет
Обсуждают сегодня