汉字UNICODE编码范围

         

基本多文种平面是Unicode中的一个编码区段。编码从U+0000至U+FFFF。

常用汉字在此区间对应。

 

对应关系如下:

3400-4DBF:CJK 统一表意符号扩展 A (CJK Unified Ideographs Extension A)

4DC0-4DFF:易经六十四卦符号 (Yijing Hexagrams Symbols)

4E00-9FBF:CJK 统一表意符号 (CJK Unified Ideographs)

E000-F8FF:自造字区域  (共6400个自造字空间)

 

常用字占用2个字节,在多文种平面区。

冷僻字占用4个字节,在其它平面

如何判断一个字是常用字还是冷僻字?

 

UNICODE预留了一段区域,基本多语言平面内的字符在这段区域内不做映射,但其它区域在这段区域内做映射。

BMP内,从U+D800U+DFFF之间的Code Point区段是永久保留不映射到字符

BMP之外占用四个字节 前两个字节为高位字节,后两个字节为低位字节

前两个字节的范围为:0xD800..0xDBFF

后两个字节的范围为:0xDC00..0xDFFF

因此,可用下述方法判断是否为冷僻字:

        

  

           WCHAR  wc[2];

           IF(wc[0]>=0xD800&&wc[0]<=0xDBFF)

                     冷僻字;

          ELSE

                   常用字;

         

 

参考资料:

 

http://dict.youdao.com/wiki/%E5%9F%BA%E6%9C%AC%E5%A4%9A%E6%96%87%E7%A7%8D%E5%B9%B3%E9%9D%A2/#

你可能感兴趣的:(c,扩展,语言,extension)