Unicode编码

  1. 简介

    Unicode编码是一种统一标识字符串的方法,即一个字符串对应一个编号(code point),表示为U+xxxx。其中xxxx为十六进制的编号,范围是000000~10FFFF。

  2. 分类

    • utf-32:每个字符都用四个字节存储,完全对应编号。

      优点:查找快

      缺点:费空间

    • utf-16:变长的存储方式,基本平面的(U+0000~U+FFFF)2个字节,辅助平面的(U+010000~U+10FFFF)4个字节。

      在基本平面中,U+D800~U+DBFF是空的,故可以用来标识并存储辅助平面的高10位,低10位在下一个字符的U+DC00~U+DFFF中。这样就将辅助平面的20位分别存放在两个16位的字符中了。

    • utf-8:变长的存储方式,1~4个字节不等。

    • ucs


你可能感兴趣的:(unicode)