тогда?
const cs: array [0..1] of Word = ($D800, $DC00); s, d: TBytes; begin SetLength(s, 4); Move(cs, s[0], SizeOf(cs)); Вопрос только в допустимости комбинации в UTF-16
она не допустима, но чтобы это понять надо парсить честно unicode
Такая пара кодирует символ U+10000. Суть мне понятна, но повторюсь, что для меня одиночный DC00 — это такой же обломок, потому что такого символа нет, он предназначен для копирования символов U+10000+. Если UTF-8 можно его кодировать — это ни о чем не говорит. Подозреваю, что он может даже за пределы U+10FFFF выходить, но смысл? Разница лишь в том, что UTF-16 может состоять из 1 или 2 частей, а UTF-8 — из 1, 2, 3 или 4. Вот и всё. Последовательность DC00 + DB00 + 0123 такая же невалидная, как и 80 + FF + 12, по сути.
ищи варианты как строку преобразовать к максимально качественному виду
а тут уже от декодера зависит, он там не UCS2 часом?
https://t.me/Delphi_Lazarus/317880
Да мне этого не надо. Главное, что невалидные символы не генерят исключений, а во что они будут преобразованы — неважно, т.к. их вообще не должно быть в данных. Суть — чтоб прога не падала, не негенерила неожиданных исключений.
если я верно понимаю это может помочь: /// <summary>Determines if a character is defined in Unicode.</summary> class function IsDefined(C: Char): Boolean; overload; inline; static;
Обсуждают сегодня