Добрый день, подскажите, как оптимально читать большие файлы(текст) в кодировке

Question

Rust — русскоговорящее сообщество

Hesse Halons

Добрый день, подскажите, как оптимально читать большие файлы(текст) в кодировке

utf-16(le)?

#backend #embedded #programming #russian #rust

0

03.03.2021

17 ответов

37 просмотров

Ivan Leshchenko

Αλεχ Zhukovsky
в расте есть методы по буферизованному/небуферизов...

Я не ТС, но возник следственный вопрос - а как при этом читать, чтобы не получить сломанный промежуточный вывод, если я захватил кодпоинт, который связан с другим кодпоинтом, но второй кодпоинт я ещё не прочёл

0

03.03.2021

Oleg ℕižnik

Ivan Leshchenko
Я не ТС, но возник следственный вопрос - а как при...

https://docs.rs/encoding_rs/0.7.2/encoding_rs/

0

03.03.2021

Αλεχ Zhukovsky

Ivan Leshchenko
Я не ТС, но возник следственный вопрос - а как при...

в случае utf16 все просто - бери четное количество байт и посреди кодпоинта не окажешься

0

03.03.2021

Hesse Halons Автор вопроса

Αλεχ Zhukovsky
в расте есть методы по буферизованному/небуферизов...

хмм, а есть способ открыть "поток" и читать файл побайтово? я не нашёл такой реализации...

0

03.03.2021

Oleg ℕižnik

Αλεχ Zhukovsky
в случае utf16 все просто - бери четное количество...

А как же 4-байтовые символы

0

03.03.2021

xor eax, eax

Hesse Halons
хмм, а есть способ открыть "поток" и читать файл п...

можно select/poll вызывать внутри loop и читать по несколько байт

0

03.03.2021

Hesse Halons Автор вопроса

xor eax, eax
можно select/poll вызывать внутри loop и читать по...

это я так понимаю из C?

0

03.03.2021

Roman

Hesse Halons
хмм, а есть способ открыть "поток" и читать файл п...

зачем?

0

03.03.2021

Αλεχ Zhukovsky

Oleg ℕižnik
А как же 4-байтовые символы

Ну можно хвост отрубать и потом подсовывать к следующему чанку, но возражение принято

0

03.03.2021

Hesse Halons Автор вопроса

Roman
зачем?

ну получается ,если я буду брать буфферизированный некий кусок(к примеру методом read у file), то для дальнейшей обработки мне потребуется по этому буфферезированному куску итератором проходится, и я вероятно не прав, так как я не знаю как read забирает эти байты у файла

0

03.03.2021

Roman

Hesse Halons
ну получается ,если я буду брать буфферизированный...

ну и что?

0

03.03.2021

Hesse Halons Автор вопроса

Roman
ну и что?

это не двойная работа? почему я сразу не могу обработать входящие байты по одному

0

03.03.2021

Roman

Hesse Halons
это не двойная работа? почему я сразу не могу обра...

ну и что?

0

03.03.2021

Αλεχ Zhukovsky

Hesse Halons
ну получается ,если я буду брать буфферизированный...

ну надо будет, да, а что не так? Буфер на то и буфер чтобы заполняться

0

03.03.2021

Hesse Halons Автор вопроса

Αλεχ Zhukovsky
ну надо будет, да, а что не так? Буфер на то и буф...

файл 10гб, и дробить его придётся знатно

0

03.03.2021

Αλεχ Zhukovsky

Hesse Halons
файл 10гб, и дробить его придётся знатно

его и так ОСь дробить будет. Вопрос только что тебе от этих 10гб надо. Если бегать взад-вперед то ничего хорошего скоре всего не получится. Если просто что-то найти в тексте - тогда другое дело

0

03.03.2021

Αλεχ Zhukovsky · Accepted Answer

Αλεχ Zhukovsky

в расте есть методы по буферизованному/небуферизованнюому чтению файлов целиком и по кускам. Отдельно есть либы для конвертации байтовых слайсов в строки.

0

03.03.2021

172 похожих чатов

Добрый день, подскажите, как оптимально читать большие файлы(текст) в кодировке

17 ответов

Похожие вопросы