В Гугле вообще
в utf-8 один char может кодироваться разным кол-вом байт, поэтому заранее неясно где лежит k-ый
utf-8, в отличие от упомянутой utf-32, — это неравномерная система кодирования, в ней коды символов разной длины. в таких системах кодирования для однозначного декодирования должно соблюдаться прямое (никакое кодовое слово не может быть началом другого слова) или обратное (никакое слово не может быть концом другого) условие Фано в зависимости от порядка кодировки
https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/
Обсуждают сегодня