Ладно, как мне закодировать U+D800 и U+DC00 подряд в UTF-16

Question

Delphi & Lazarus

Eugene Krasnikov (ᴊɪɴ x)

Ладно, как мне закодировать U+D800 и U+DC00 подряд в UTF-16

тогда?

#lazarus #programming #russian

0

19.04.2024

8 ответов

9 просмотров

Boris Usievich

Serg
const cs: array [0..1] of Word = ($D800, $DC00);...

она не допустима, но чтобы это понять надо парсить честно unicode

0

13 дней назад

Eugene Krasnikov (ᴊɪɴ x) Автор вопроса

Serg
const cs: array [0..1] of Word = ($D800, $DC00);...

Такая пара кодирует символ U+10000. Суть мне понятна, но повторюсь, что для меня одиночный DC00 — это такой же обломок, потому что такого символа нет, он предназначен для копирования символов U+10000+. Если UTF-8 можно его кодировать — это ни о чем не говорит. Подозреваю, что он может даже за пределы U+10FFFF выходить, но смысл? Разница лишь в том, что UTF-16 может состоять из 1 или 2 частей, а UTF-8 — из 1, 2, 3 или 4. Вот и всё. Последовательность DC00 + DB00 + 0123 такая же невалидная, как и 80 + FF + 12, по сути.

0

13 дней назад

Handatros

Eugene Krasnikov (ᴊɪɴ x)
Такая пара кодирует символ U+10000. Суть мне понят...

ищи варианты как строку преобразовать к максимально качественному виду

0

13 дней назад

Serg

Eugene Krasnikov (ᴊɪɴ x)
Такая пара кодирует символ U+10000. Суть мне понят...

а тут уже от декодера зависит, он там не UCS2 часом?

0

13 дней назад

Eugene Krasnikov (ᴊɪɴ x) Автор вопроса

Serg
а тут уже от декодера зависит, он там не UCS2 часо...

https://t.me/Delphi_Lazarus/317880

0

13 дней назад

Eugene Krasnikov (ᴊɪɴ x) Автор вопроса

Handatros
ищи варианты как строку преобразовать к максимальн...

Да мне этого не надо. Главное, что невалидные символы не генерят исключений, а во что они будут преобразованы — неважно, т.к. их вообще не должно быть в данных. Суть — чтоб прога не падала, не негенерила неожиданных исключений.

0

13 дней назад

Handatros

Eugene Krasnikov (ᴊɪɴ x)
Да мне этого не надо. Главное, что невалидные симв...

если я верно понимаю это может помочь: /// <summary>Determines if a character is defined in Unicode.</summary> class function IsDefined(C: Char): Boolean; overload; inline; static;

0

13 дней назад

Serg · Accepted Answer

Serg

const cs: array [0..1] of Word = ($D800, $DC00); s, d: TBytes; begin SetLength(s, 4); Move(cs, s[0], SizeOf(cs)); Вопрос только в допустимости комбинации в UTF-16

0

13 дней назад

169 похожих чатов

Ладно, как мне закодировать U+D800 и U+DC00 подряд в UTF-16

8 ответов

Похожие вопросы