169 похожих чатов

Привет) Подскажите, плиз, функцией read_csv из библиотеки polars можно как

то прочитать файл с кириллицей?

в encoding нет cp1251...

36 ответов

50 просмотров

encoding = 'windows-1251'

Марк- Автор вопроса

Тоже не работает

А utf8-lossy значками замещает?

Марк- Автор вопроса

Похоже, поларс пока только utf-8 поддерживает и только пересохранять надо файл)

Марк- Автор вопроса

Там ошибку тоже выдает

У меня читает по дефолту

в документации так и написано. ну что, сложно сконвертить?

Марк- Автор вопроса

как так?)

Скиньте свой файл, попробую прочитать

Марк- Автор вопроса

Именно так и написано, но мне трудно поверить, что без танцев с бубном в пайтоне сложно просто прочитать 5 гиговый файл)

Марк- Автор вопроса

Поэтому можно, но это тупо так делать :)

вполне очевидно, что если вы используете альтернативное ПО, то там что-то не работает.

Скиньте отрывок файла)

Марк- Автор вопроса

а какое безальтернативное?)

pandas.

Марк- Автор вопроса

он не умеет читать файлы такого размера

Марк- Автор вопроса

Давай на ты :) Вроде почти знакомы по соседнему чатику :) Можно просто сгенерить в csv любой файлик в cp1251) Вот

dask-dataframe

Марк- Автор вопроса

спс)

если у вас на начальных этапах какая-то фильтрация, то еще можно просто в цикле в pandas отфильровать. например. но формулировка "не умеет читать" странная

Марк- Автор вопроса

Нет фильтрации. Это итоговый файл (сделанный в R). В котором скрыто много интересного и полезного. Хотел покрутить его в пайтоне, чтобы руку набить.

Марк- Автор вопроса

Не умеет читать имеется в виду, что если попытаться прочесть 5 гиговый файл на машине с 16 гб, то получишь краш по памяти)

Кривоватенько, если честно… Сэкономили. Не все на маках или линухах, многие мыслят только 1251

ориентировочно около 50% на русскоязычных текстах.

Процедуры импорта надо делать максимально гибко. Ведь ими пользуются миллионы людей. Каждый прокол сказывается на многих

а что, если забить на все эти пандасы и поларсы и почитать с помощью https://arrow.apache.org/docs/python/csv.html ? там тоже только юникод, увы. но по скорости он должен быть круче

Все равно же ограничение по ram

5 vs 16 должно бы хватать?

Ну во-первых 5 это csv, в памяти это может быть как меньше, так и больше. Во-вторых, в том же пандасе с памятью странные штуки происходят, когда для некоторых операций нужно х2-х4 памяти.

Они не странные, а «by design». Может и в большее разожмется но это достаточно редко

fread читает?

вот большая военная тайна: https://uwekorn.com/2020/05/24/the-one-pandas-internal.html

кайф Попробовал на маке своем слабеньком 1гб файл Pandas, Polars, Modin - 20~27 секунд Pyarrow - 6.5

а то! пандас-пандас... АПАЧ!

Марк- Автор вопроса

Спасибо, посмотрю)

Марк- Автор вопроса

С dt.fread есть какой-то баг:частенько на больших файлах выдает ошибку, что его не существует по указанному пути. В этот раз такая же

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта