SQL-ных оконных функций с партиционированием по заданным колонкам?
Ну, которые PARTITION BY + OVER + row_count()?
А там не 100% апи пандаса?
Говорят, 100%. Но я раньше пандасом редко пользовался, так что достоверно сказать не могу. А что, в pandas нету окошек по партициям?
Тут такое дело: их rolling, кажется, будет один по всей таблице. А мне надо именно по отдельным партициям.
transform по памяти припоминается для подобного
Там есть window аргумент. Плюс есть групбай и .apply/tranform
Погодите, мы точно про одно и то же говорим? https://koalas.readthedocs.io/en/latest/reference/api/databricks.koalas.DataFrame.rolling.html https://koalas.readthedocs.io/en/latest/reference/api/databricks.koalas.window.Rolling.count.html#databricks.koalas.window.Rolling.count Там же аргумент задаёт фиксированный размер окна, а не ID колонки, по которой таблицу делить на отдельные окошечки же...
Тода, групбай и трансформ/apply
А groupby не катит, потому что я хочу показать не только максимальную сумму перевода, которые приходили каждому юзеру, но и источники тех переводов = (
Нафига мучать себя и использовать дурацкий API, если есть божественный SQL?
Попробуй через apply. свою функцию определи что с группой делать
https://t.me/pydata_chat Тут попробуй спросить, там онли пандас 24/7. Ток ты им объясни что такое koalas)
Рил толк, весь процесс трансформации данных до конечных лучше делать через spark sql
Тут скорее вопрос в том что даже на офф сайте коалы написано DEPRECATED: Koalas supports Apache Spark 3.1 and below as it is officially included to PySpark in Apache Spark 3.2. This repository is now in maintenance mode. For Apache Spark 3.2 and above, please use PySpark directly.
Видимо у человека спарк 2.x
Обсуждают сегодня