Братцы, нужна помощь квалифицированная. Хочу я сгенерировать (и загнать в PySpark)

несколько датафреймов с колонками сложных типов: STRUCT/MAP/ARRAY.
Имею спросит: а как это правильно сделать?

Сейчас пытаюсь сделать так: делаю таблицу с помощью pyarrow, конвертирую её в pandas-датафрейм и хочу подать последний на вход spark.createDataFrame(...) :

import numpy as np
import pyarrow as pa
from pyspark.sql import SparkSession

if __name__ == "__main__":

simple_array = pa.array([1, 2, 3], type=pa.int64())

struct_type = pa.struct([('name', pa.string()), ("age", pa.int32())],)
struct_array = pa.array([{"name": "Belzebub", "age": 13}, {"name": "Sathanail", "age": 666},
{"name": "Leviathan", "age": 1000}], type=struct_type)

array_array = pa.array([["Chizhick", "Pyzhick"], ["кролики"], ["уникальные", "акции", "на", "товары"]],
type=pa.list_(pa.string()))

map_array = pa.array([
list({"dick_length": 355.14, "dick_diameter": 91.5}.items()),
list({"dick_length": 111.4, "dick_diameter": 105}.items()),
list({"dick_length": np.nan, "dick_diameter": np.nan, "balls_weight": 1000}.items())
], pa.map_(pa.string(), pa.float64())
)

uber_table = pa.table([simple_array, struct_array, array_array, map_array],
["simple_col", "struct_col", "array_col", "map_col"])


df = uber_table.to_pandas()
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
sdf = spark.createDataFrame(df) # Вот тут-то мне и кидают ошибку = (
sdf.write.saveAsTable("spark_sql_course.uber_table")

Но мне кидают ошибку:
TypeError: Can not infer schema for type: <class 'numpy.ndarray'>

Как мне это дело забороть?

P.S. Можно, конечно, сохранять промежуточный parquet-файл на файловой системе, и это даже прокатит, но это выглядит как лютый костыль.
P.P.S. Кстати, а можно ли в pandas создать аналогичный датафрейм с колонками сложных типов?

3 ответов

22 просмотра

в вашем снипете вы намешиваете спарковские / паркетные struct, array вместе с пандасом и ndarray. да еще и потом с хайв-таблицей страктов и аррэев. могу я узнать, оно вам позарез надо? в проде все равно такое будет ломаться на каждом чихе

Felix-Neko Автор вопроса
Сиплый
в вашем снипете вы намешиваете спарковские / парке...

А что вы имеете в виду под смешиванием спарковских и паркетных struct и array?

Нафига так сложно собирать пайэрроу датафрейм, если все равно в спарк потом?

Похожие вопросы

Обсуждают сегодня

Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Коллеги, может знает кто, можно ли цвет бейджа счётчика в BackendMenu менять без бубнов?
Alex Blaze
3
Всем привет. Ребята, подскажите, пожалуйста. у ботов есть ограничение на отправку сообщений - 30 сообщений в секунду, эти ограничения накладываются на все сообщения? или на со...
Artem Stormageddon
4
Привет!) Кто как юзает переменные в строках?) Чисто ради интереса Вот так: echo "У меня {$bananasAmount} бананов"; Или вот так: echo "У меня ${bananasAmount} бананов";
Виталий
3
разработчик ботов скидывает портфолио, боты которые он уже создал. А вот как узнать что это именно он их создал?
Gosudar
4
а плаксы из-под питона умеют только в комфортных условиях что-то выдавить из себя?)
Lencore
9
Но, может, есть уже проверенная? Наши требования такие: 1. Сообщения должны приходить из Инста в CRM оду 2. Должна быть возможность подключить несколько экаунтов Инстаграм. Р...
Alexander Sharoiko MSE / Александр Шаройко
13
кто-нибудь уже пробовал это?
Lencore
4
Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
❓ Подскажите как сделать в группе телеги функцию (кнопку) пересылки сообщения где есть нарушение правил? Бот к каждому сообщению (по определенным ключам) добавляет снизу кнопк...
Alexander
4
Карта сайта