то прочитать файл с кириллицей?
в encoding нет cp1251...
encoding = 'windows-1251'
Тоже не работает
А utf8-lossy значками замещает?
Похоже, поларс пока только utf-8 поддерживает и только пересохранять надо файл)
Там ошибку тоже выдает
У меня читает по дефолту
в документации так и написано. ну что, сложно сконвертить?
как так?)
Скиньте свой файл, попробую прочитать
Именно так и написано, но мне трудно поверить, что без танцев с бубном в пайтоне сложно просто прочитать 5 гиговый файл)
Поэтому можно, но это тупо так делать :)
вполне очевидно, что если вы используете альтернативное ПО, то там что-то не работает.
Скиньте отрывок файла)
а какое безальтернативное?)
pandas.
он не умеет читать файлы такого размера
Давай на ты :) Вроде почти знакомы по соседнему чатику :) Можно просто сгенерить в csv любой файлик в cp1251) Вот
dask-dataframe
спс)
если у вас на начальных этапах какая-то фильтрация, то еще можно просто в цикле в pandas отфильровать. например. но формулировка "не умеет читать" странная
Нет фильтрации. Это итоговый файл (сделанный в R). В котором скрыто много интересного и полезного. Хотел покрутить его в пайтоне, чтобы руку набить.
Не умеет читать имеется в виду, что если попытаться прочесть 5 гиговый файл на машине с 16 гб, то получишь краш по памяти)
Кривоватенько, если честно… Сэкономили. Не все на маках или линухах, многие мыслят только 1251
ориентировочно около 50% на русскоязычных текстах.
Процедуры импорта надо делать максимально гибко. Ведь ими пользуются миллионы людей. Каждый прокол сказывается на многих
а что, если забить на все эти пандасы и поларсы и почитать с помощью https://arrow.apache.org/docs/python/csv.html ? там тоже только юникод, увы. но по скорости он должен быть круче
Все равно же ограничение по ram
5 vs 16 должно бы хватать?
Ну во-первых 5 это csv, в памяти это может быть как меньше, так и больше. Во-вторых, в том же пандасе с памятью странные штуки происходят, когда для некоторых операций нужно х2-х4 памяти.
Они не странные, а «by design». Может и в большее разожмется но это достаточно редко
fread читает?
вот большая военная тайна: https://uwekorn.com/2020/05/24/the-one-pandas-internal.html
кайф Попробовал на маке своем слабеньком 1гб файл Pandas, Polars, Modin - 20~27 секунд Pyarrow - 6.5
а то! пандас-пандас... АПАЧ!
Спасибо, посмотрю)
С dt.fread есть какой-то баг:частенько на больших файлах выдает ошибку, что его не существует по указанному пути. В этот раз такая же
Обсуждают сегодня