169 похожих чатов

Привет) Подскажите, плиз, функцией read_csv из библиотеки polars можно как

то прочитать файл с кириллицей?

в encoding нет cp1251...

36 ответов

46 просмотров

encoding = 'windows-1251'

Марк- Автор вопроса

Тоже не работает

А utf8-lossy значками замещает?

Марк- Автор вопроса

Похоже, поларс пока только utf-8 поддерживает и только пересохранять надо файл)

Марк- Автор вопроса

Там ошибку тоже выдает

У меня читает по дефолту

в документации так и написано. ну что, сложно сконвертить?

Марк- Автор вопроса

как так?)

Скиньте свой файл, попробую прочитать

Марк- Автор вопроса

Именно так и написано, но мне трудно поверить, что без танцев с бубном в пайтоне сложно просто прочитать 5 гиговый файл)

Марк- Автор вопроса

Поэтому можно, но это тупо так делать :)

вполне очевидно, что если вы используете альтернативное ПО, то там что-то не работает.

Скиньте отрывок файла)

Марк- Автор вопроса

а какое безальтернативное?)

pandas.

Марк- Автор вопроса

он не умеет читать файлы такого размера

Марк- Автор вопроса

Давай на ты :) Вроде почти знакомы по соседнему чатику :) Можно просто сгенерить в csv любой файлик в cp1251) Вот

dask-dataframe

Марк- Автор вопроса

спс)

если у вас на начальных этапах какая-то фильтрация, то еще можно просто в цикле в pandas отфильровать. например. но формулировка "не умеет читать" странная

Марк- Автор вопроса

Нет фильтрации. Это итоговый файл (сделанный в R). В котором скрыто много интересного и полезного. Хотел покрутить его в пайтоне, чтобы руку набить.

Марк- Автор вопроса

Не умеет читать имеется в виду, что если попытаться прочесть 5 гиговый файл на машине с 16 гб, то получишь краш по памяти)

Кривоватенько, если честно… Сэкономили. Не все на маках или линухах, многие мыслят только 1251

ориентировочно около 50% на русскоязычных текстах.

Процедуры импорта надо делать максимально гибко. Ведь ими пользуются миллионы людей. Каждый прокол сказывается на многих

а что, если забить на все эти пандасы и поларсы и почитать с помощью https://arrow.apache.org/docs/python/csv.html ? там тоже только юникод, увы. но по скорости он должен быть круче

Все равно же ограничение по ram

5 vs 16 должно бы хватать?

Ну во-первых 5 это csv, в памяти это может быть как меньше, так и больше. Во-вторых, в том же пандасе с памятью странные штуки происходят, когда для некоторых операций нужно х2-х4 памяти.

Они не странные, а «by design». Может и в большее разожмется но это достаточно редко

fread читает?

вот большая военная тайна: https://uwekorn.com/2020/05/24/the-one-pandas-internal.html

кайф Попробовал на маке своем слабеньком 1гб файл Pandas, Polars, Modin - 20~27 секунд Pyarrow - 6.5

а то! пандас-пандас... АПАЧ!

Марк- Автор вопроса

Спасибо, посмотрю)

Марк- Автор вопроса

С dt.fread есть какой-то баг:частенько на больших файлах выдает ошибку, что его не существует по указанному пути. В этот раз такая же

Похожие вопросы

Обсуждают сегодня

30500 за редактор? )
Владимир
47
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
вы делали что-то подобное и как? может есть либы готовые? увидел картинку нокода, где всё линиями соединено и стало интересно попробовать то же в ddl на lua сделать. решил с ч...
Victor
8
Подскажите пожалуйста, как в CustomDrawCell(Sender: TcxCustomGridTableView; ACanvas: TcxCanvas; AViewInfo: TcxGridTableDataCellViewInfo; var ADone: Boolean); получить наз...
A Z
7
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
1
Он в одиночку это дело запилил или была какая-то команда?
Aquinary
12
~ 2m21s  nix shell github:nixos/nixpkgs#stack ~  stack ghc -- --version error: … while calling the 'derivationStrict' builtin at /builtin/derivation.nix:...
Rebuild your mind.
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Карта сайта