pyspark, чтобы там по-папски со spark-датафреймами работать?
Имею спросить: а каким движком вы для этого пользовались? JDBC-драйвером от Cloudera -- или чем другим?
зачем? импала обращается к hive metastore и читает дату из файловых систем вроде hdfs. спарком можно делать то же самое
Ну, я же хочу, чтобы мои датафреймы обрабатывал именно движок Impala, который таки ощутимо шустрее, чем Hive.
Движок спарка вполне работает без хайва
hive и hive metaatore - разные вещи
если хотите именно импалой обрабатывать, тогда ей квери и бросайте в виде sql
Да без проблем, только чем к ней из-под PySpark подключаться-то?
jdbc драйвером, как к любой sql бд (ну почти) спарк для этого не нужен.
Обсуждают сегодня