несколько датафреймов с колонками сложных типов: STRUCT/MAP/ARRAY.
Имею спросит: а как это правильно сделать?
Сейчас пытаюсь сделать так: делаю таблицу с помощью pyarrow, конвертирую её в pandas-датафрейм и хочу подать последний на вход spark.createDataFrame(...) :
import numpy as np
import pyarrow as pa
from pyspark.sql import SparkSession
if __name__ == "__main__":
simple_array = pa.array([1, 2, 3], type=pa.int64())
struct_type = pa.struct([('name', pa.string()), ("age", pa.int32())],)
struct_array = pa.array([{"name": "Belzebub", "age": 13}, {"name": "Sathanail", "age": 666},
{"name": "Leviathan", "age": 1000}], type=struct_type)
array_array = pa.array([["Chizhick", "Pyzhick"], ["кролики"], ["уникальные", "акции", "на", "товары"]],
type=pa.list_(pa.string()))
map_array = pa.array([
list({"dick_length": 355.14, "dick_diameter": 91.5}.items()),
list({"dick_length": 111.4, "dick_diameter": 105}.items()),
list({"dick_length": np.nan, "dick_diameter": np.nan, "balls_weight": 1000}.items())
], pa.map_(pa.string(), pa.float64())
)
uber_table = pa.table([simple_array, struct_array, array_array, map_array],
["simple_col", "struct_col", "array_col", "map_col"])
df = uber_table.to_pandas()
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
sdf = spark.createDataFrame(df) # Вот тут-то мне и кидают ошибку = (
sdf.write.saveAsTable("spark_sql_course.uber_table")
Но мне кидают ошибку:
TypeError: Can not infer schema for type: <class 'numpy.ndarray'>
Как мне это дело забороть?
P.S. Можно, конечно, сохранять промежуточный parquet-файл на файловой системе, и это даже прокатит, но это выглядит как лютый костыль.
P.P.S. Кстати, а можно ли в pandas создать аналогичный датафрейм с колонками сложных типов?
в вашем снипете вы намешиваете спарковские / паркетные struct, array вместе с пандасом и ndarray. да еще и потом с хайв-таблицей страктов и аррэев. могу я узнать, оно вам позарез надо? в проде все равно такое будет ломаться на каждом чихе
А что вы имеете в виду под смешиванием спарковских и паркетных struct и array?
Нафига так сложно собирать пайэрроу датафрейм, если все равно в спарк потом?
Обсуждают сегодня