Насколько сильно частые переходы to_pandas / from_pandas замедляют систему?
Во многих местах простой заменой панды на коалу не получается, частенько выкидывает ошибку что у коалы этот метод нереализован либо работает как-то иначе. В этих местах чтобы особо не трогать код перевожу все на панды.
Но сейчас вот столкнулся с тем, что память течет:(
можешь сам чекнуть загрузить 500 мб файлик, и закинуть его с пандаса на коалу и обратно, с пандаса на коалу не сильно то замедлит работу т.к. коала не загружает весь файлик в оперативу, а вот с коалы на панду будет потяжелее мб один проще будет перейти на скалу и дергать оттуда спарк и багов ловить не будешь от питонячей апихи спарка либо на даск там вроде нет перехода на py4j так же ,когда ты будешь на разных нодах гонять свой файлик и сделаешь to pandas, у тебя все файлики с нод перейдут на драйвер ноду и хватит ли у тебя там места большой вопрос
Спасибо) я уже предложил это нашему пм, но он настаивает на коале чтобы быстренько перейти на Спарк, а дальше уже потихоньку переделывать все шаг за шагом. Но чето этот переход оказался нифига не быстреньким, плюс ещё и память течёт где-то
так коала - это обертка над спарком,если я не ошибаюсь
Так и есть. Коала позиционирует себя как интерфейс панды + бекэнд на спарке. Только там не совсем все как в пандах реализовано:(
Обсуждают сегодня