нас сейчас юдфки подключаются как отдельный скала-джарник.
Можно ли рассматривать пандас-юдф как замену в этом случае?
Вроде как пишут, что они намного быстрее питонячих юдф за счёт Arrow, но интересно как они по скорости в сравнении со Скаловскими юдф
Ит депендс. Скала удф конвертят InternalRow -> Row -> InternalRow Пандас удф сериализуют -> пихают в путон процесс -> сериализуют результат -> десериализуют обратно в жвм Если уже есть кастомный жарник и есть время на эксперименты - попробуй вместо скала удф кастомные экспрешоны сделать Там не происходит конвертация в Row и обратно, эхпрешон пропихивается в кодоген Далее, что на твоих данных будет сильнее влиять - все эти конвертации или сами вычисления? Хз, зависит от того, что именно удфки делают. Бывают ж весьма хитрые Кроме того, если у тебя там вложенные структуры туда-сюда передаются, я не знаю, как пандас в пуспарке с этим работает
но происходит всеравно сердесер InternalRow => op(value) => InternalRow
Но не всех столбиков фрейма, как я понимаю
Короче, пока на своих данных не потестишь - не узнаешь
Обсуждают сегодня