Всем привет. А кто-нибудь работал в pandas с dataframe размера

Question

Big Data Science :: AI / Big Data / Machine Learning / MLOps

Всем привет. А кто-нибудь работал в pandas с dataframe размера

100к строк на 30к столбцов? основная масса данных - bool, пару столбцов только string
Проблема в том, что даже для нулевого фрейма такого размера нужно 22 гб оперативки :)
Кто-нибудь решал такую проблему?

#database #programming #russian #software

0

09.01.2020

6 ответов

16 просмотров

Karev Vitalii

почему 22 гб оперативки для пустого? в районе 3х же, не?

0

09.01.2020

arsenii begliak

Разные варианты есть. К тому, что уже предлагали: убедитесь, что используются правильные типы колонок. Не надо использовать int64 для булевых значений. Можно также обрабатывать датасет по частям, если это поможет в вашей задаче.

0

09.01.2020

Roman

Что-то явно не так, это маленький датасет, и при импорте не должен столько занимать.

0

09.01.2020

undiabler

Не юзай пандас. Есть всякие обертки с таким же апи для работы с данными пачками с диска. Работать со всей матрицей в памяти это бомба отложенного действия. Сейчас ты потратишь кучу времени на оптимизацию чтоб влезло в память - завтра датасет будет чуть больше и снова не влезет.

0

09.01.2020

Daniel Goldenberg

Можно dask попробовать, он вроде в такое умеет

0

14.01.2020

Λepus · Accepted Answer

Λepus

- работай со sparse матрицами - уменьшай для визуализации датасет

0

09.01.2020

215 похожих чатов

Всем привет. А кто-нибудь работал в pandas с dataframe размера

6 ответов

Похожие вопросы