169 похожих чатов

Ладно, как мне закодировать U+D800 и U+DC00 подряд в UTF-16

тогда?

8 ответов

9 просмотров

const cs: array [0..1] of Word = ($D800, $DC00); s, d: TBytes; begin SetLength(s, 4); Move(cs, s[0], SizeOf(cs)); Вопрос только в допустимости комбинации в UTF-16

Serg
const cs: array [0..1] of Word = ($D800, $DC00);...

она не допустима, но чтобы это понять надо парсить честно unicode

Eugene-Krasnikov (ᴊɪɴ x) Автор вопроса
Serg
const cs: array [0..1] of Word = ($D800, $DC00);...

Такая пара кодирует символ U+10000. Суть мне понятна, но повторюсь, что для меня одиночный DC00 — это такой же обломок, потому что такого символа нет, он предназначен для копирования символов U+10000+. Если UTF-8 можно его кодировать — это ни о чем не говорит. Подозреваю, что он может даже за пределы U+10FFFF выходить, но смысл? Разница лишь в том, что UTF-16 может состоять из 1 или 2 частей, а UTF-8 — из 1, 2, 3 или 4. Вот и всё. Последовательность DC00 + DB00 + 0123 такая же невалидная, как и 80 + FF + 12, по сути.

Eugene Krasnikov (ᴊɪɴ x)
Такая пара кодирует символ U+10000. Суть мне понят...

ищи варианты как строку преобразовать к максимально качественному виду

Eugene Krasnikov (ᴊɪɴ x)
Такая пара кодирует символ U+10000. Суть мне понят...

а тут уже от декодера зависит, он там не UCS2 часом?

Eugene-Krasnikov (ᴊɪɴ x) Автор вопроса
Handatros
ищи варианты как строку преобразовать к максимальн...

Да мне этого не надо. Главное, что невалидные символы не генерят исключений, а во что они будут преобразованы — неважно, т.к. их вообще не должно быть в данных. Суть — чтоб прога не падала, не негенерила неожиданных исключений.

Eugene Krasnikov (ᴊɪɴ x)
Да мне этого не надо. Главное, что невалидные симв...

если я верно понимаю это может помочь: /// <summary>Determines if a character is defined in Unicode.</summary> class function IsDefined(C: Char): Boolean; overload; inline; static;

Похожие вопросы

Обсуждают сегодня

читать файл максимально быстро? странный вопрос))
zamtmn
53
тоесть, указав return eax, сгенерируется никому ненужная инструкция mov eax,eax ?
Aiwan \ (•◡•) / _bot
24
Приветствуем всех! Устали без проектов? Если вы программист и хотите получать стабильные заказы, компания Elif предлагает вам недельный курс по поиску проектов и их ведению. ...
Elif
1
А чего сейчас в моде вместо Error для эксепшенов? А то я тут внезапно узрел что он не рекомендуется :) У Try::Tiny какой-то совершенно ужасный синтаксис если надо конкретные э...
Denis F
19
а зачем этот вопрос для удаления из чата?
Mёdkinson Medvezhkin
63
Привет. Сразу скажу, что на C/C++/Rust я не пишу, но тем не менее возникла потребность дебага C/C++/Rust кода. Суть: есть серверное приложение, которое периодически ведёт себ...
ninekeem 🐳
4
всем привет! углубившись в плюсы и начав изучать реверсинг понял, что без асм'а никуда со своими высокоабстрактными представлениями начал изучать механизмы асма, и не совсем п...
9
Всем привет, после Си стоит учить плюсы или лучше на раст перейти?
Linus
8
или вы считаете муит дает знание?
супер_лох_3000 альфа версия
12
значить например он учился в СДУ то получается он особенный?)
Asets Serikov
11
Карта сайта