выгрузить в паркет, желательно разделить, чтобы было несколько небольших паркетов вместо одного большого? Сейчас делается тупо селект всего в датафрейм пандас и потом по частям записывается, но таблица разрослась, и текущая реализация падает, когда оператива выжирается. Накинуть оперативы возможности нет...
можно курсором воспользоваться
Можно спарком. Спарк и чанками умеет грузить. Вместо пандаса засунуть pyspark с master = local[1] тогда будет 1 чанк за раз грузить
Я просто спросил мб есть какие бест практис кто как делает. Что выгоднее и удобнее в конечном счете
ну чисто логически спарком не очень удобно потому что кластер нужно поднимать еще и лить нужно в небольшое количество потоков. Это все делает клик
Клик неплохо справляется. В несколько потоков (s3Cluster -функция)
А я отвечал вроде не тебе
А ой Сори
Можешь еще взять полумертвый sqoop. Но он без ходупа не работает вроде
Обсуждают сегодня