Джентельмены, а не пользовался ли кто koalas? Есть ли там аналог

SQL-ных оконных функций с партиционированием по заданным колонкам?
Ну, которые PARTITION BY + OVER + row_count()?

15 ответов

11 просмотров

А там не 100% апи пандаса?

Felix-Neko Автор вопроса
Arsen Gumin
А там не 100% апи пандаса?

Говорят, 100%. Но я раньше пандасом редко пользовался, так что достоверно сказать не могу. А что, в pandas нету окошек по партициям?

Felix-Neko Автор вопроса
Arsen Gumin
Есть rolling

Тут такое дело: их rolling, кажется, будет один по всей таблице. А мне надо именно по отдельным партициям.

Felix Neko
Тут такое дело: их rolling, кажется, будет один по...

transform по памяти припоминается для подобного

Felix Neko
Тут такое дело: их rolling, кажется, будет один по...

Там есть window аргумент. Плюс есть групбай и .apply/tranform

Felix-Neko Автор вопроса
Arsen Gumin
Там есть window аргумент. Плюс есть групбай и .app...

Погодите, мы точно про одно и то же говорим? https://koalas.readthedocs.io/en/latest/reference/api/databricks.koalas.DataFrame.rolling.html https://koalas.readthedocs.io/en/latest/reference/api/databricks.koalas.window.Rolling.count.html#databricks.koalas.window.Rolling.count Там же аргумент задаёт фиксированный размер окна, а не ID колонки, по которой таблицу делить на отдельные окошечки же...

Felix-Neko Автор вопроса
Arsen Gumin
Тода, групбай и трансформ/apply

А groupby не катит, потому что я хочу показать не только максимальную сумму перевода, которые приходили каждому юзеру, но и источники тех переводов = (

Нафига мучать себя и использовать дурацкий API, если есть божественный SQL?

Felix Neko
А groupby не катит, потому что я хочу показать не ...

Попробуй через apply. свою функцию определи что с группой делать

Felix Neko
А groupby не катит, потому что я хочу показать не ...

https://t.me/pydata_chat Тут попробуй спросить, там онли пандас 24/7. Ток ты им объясни что такое koalas)

Pavel .
Нафига мучать себя и использовать дурацкий API, ес...

Рил толк, весь процесс трансформации данных до конечных лучше делать через spark sql

Pavel .
Нафига мучать себя и использовать дурацкий API, ес...

Тут скорее вопрос в том что даже на офф сайте коалы написано DEPRECATED: Koalas supports Apache Spark 3.1 and below as it is officially included to PySpark in Apache Spark 3.2. This repository is now in maintenance mode. For Apache Spark 3.2 and above, please use PySpark directly.

Похожие вопросы

Обсуждают сегодня

Почему Telegram пишет, что объект media не найден, хотя на самом деле я его передаю? Делаю на urllib, без зависимостей, так надо. Вызываю метод sendMediaGroup с таким JSON: ...
Alexey S
1
Сonst magicTgHTML = (text, entities) => { let processedText = text; let offsetShift = 0; entities.forEach(entity => { const { offset, length, type, url, ...
Андрей
1
Чет мне ссыкотно опять Rainlab.User в проект ставить. Кто знает, опять наотъебись все сделали или после обнов пользоваться можно?
Black Cat
10
ребят, привет есть ли возможность мигрировать Policies + Auth Methods из нескольких Vault в один? пытаюсь сократить Vault кластера, немного не удобно что для каждой тестовой ...
azadevlab
2
коллеги привет. уже второй день бьемся об заклад с одной ошибкой, может вы сталкивались с таки странным поведением? есть тестовый сервер, на который паблишим релизную версию W...
Magzhan
11
это группа токсиков или тех кто помогает?
Ибрагим
9
В смысле более затратная? Общая стоимость владения лошадью меньше, чем автомобиля. В среднем.
Sergej R
10
Загрузил на свой сервер, теперь обычные прямые ссылки без query параметров и возможных ограничений, всё равно та же ошибка. Неужели скачивать из VK и перезаливать в TG кажд...
Alexey S
2
Кстати, раз про скачивание файлов разговор зашел) Сделал бота для себя (транскрибирующего и суммаризирующего встречи) но не ожидал что за 2 месяца 10к пользователей набежит😅...
Andrey Obolenskiy
8
Можете помочь с этим, я тут использую Джанго как ОРМ для бота, но бот запускать не хочет, уже всезде перерыл не могу решить, может кто то сталкивался?
Ибрагим
4
Карта сайта