解析Java中的char (Java--Unicode--UTF-16)

Java语言的char类型是16位的;
Java支持Unicode,Java对Unicode支持采用的是UTF-16的编码实现;
在UTF-16下,Java的一个Unicode字符(代码点)由1或2个char(代码单元)表示。

Some sources for these fact:

http://baike.baidu.com/view/40801.htm?fr=ala0    ---->    Unicode与UTF-8,UTF-16,UTF-32的关系


Core java(Volnume 1)  Page 45     ---->    代码点,代码单元的概念



顺便贴出一个程序:


public class UnicodeShow {
public static void main(String[] args) {
String string = "我们都是中国人\uD843\uDC30";

/*返回这个字符串的代码单元数,也就是问"我们都是中国人"中有多少个16位,UTF-16中16位为一个代码单元。*/
System.out.println("The size of string \"我们都是中国人\uD843\uDC30\" is " + string.length());

System.out.println("The Unicode of 我 is \\u" + Integer.toHexString((short)string.charAt(0)));
}
}


其实在UCS-4标准中,有些代码点比如一些非常少见的字符,包括一些生僻汉字是4字节编码的即2个代码点。只是UCS-4标准很多设备还不支持。于是\uD843\uDC30显示一个方框\u20C30。

这是我的程序运行结果:
The size of string "我们都是中国人

你可能感兴趣的:(unicode)