UNICODE编码与字符集

   以前一直没搞懂UNICODE编码UTF-8,UTF-16,UTF-32是怎么回事。
   上班没事补习了一下。从http://baike.baidu.com/view/40801.htm?fr=ala0_1
看出,UTF-8是变长编码1-4个字节。但是汉字所在的区间4E00-9FBF都是三个字节。因此系统使用UTF-8编码确实比GB18030占空间和带宽。(gbk-gb2312-gb18030汉字两个字节,ascii编码,两种字符集都是跟以前一样1个字节)但GB18030老外电脑会显示乱码。
    java中char是无符号16位整数,从链接看出现在已分配的都是在16位以内,所以char应该是可以显示现在所有字符的。(当然包括汉字^_^)
   UTF-16可能2个字节也能4个字节,看那个字符的UNICODE表示在哪个区间了。
   UTF-32固定为4个字节。
  

你可能感兴趣的:(unicode)