100к строк на 30к столбцов? основная масса данных - bool, пару столбцов только string
Проблема в том, что даже для нулевого фрейма такого размера нужно 22 гб оперативки :)
Кто-нибудь решал такую проблему?
- работай со sparse матрицами - уменьшай для визуализации датасет
почему 22 гб оперативки для пустого? в районе 3х же, не?
Разные варианты есть. К тому, что уже предлагали: убедитесь, что используются правильные типы колонок. Не надо использовать int64 для булевых значений. Можно также обрабатывать датасет по частям, если это поможет в вашей задаче.
Что-то явно не так, это маленький датасет, и при импорте не должен столько занимать.
Не юзай пандас. Есть всякие обертки с таким же апи для работы с данными пачками с диска. Работать со всей матрицей в памяти это бомба отложенного действия. Сейчас ты потратишь кучу времени на оптимизацию чтоб влезло в память - завтра датасет будет чуть больше и снова не влезет.
Можно dask попробовать, он вроде в такое умеет
Обсуждают сегодня