JAVA中文字节编码确认

在使用java进行程序开发时,难免会遇到中文乱码的问题,如果已经确定知道中文字符串的初始编码,问题就很简单,只需要经过java提供的编码转换的接口转换一下即可,但有时候不知道初试编码是什么,比如从文件读取或者第三方接口返回的中文,这时候就无法确定该如何进行编码转换,在遇到这个问题的时候,不能乱碰尝试,这样是很低效的,我使用的方法是将中文字符串转换成字节数组,然后对照编码表来确认编码方式.在这里做下具体记录.
先列举下几种常见编码的中文表示方式:
1 ISO-8859-1 
这种编码为单字节编码,字符集里不包括中文,无法表示中文字符
2 GBK、GB2312
中文标准编码、gb2312是gbk的子集,用来表示简体中文,用两个字节表示一个中文,例如字符串"你好",转换成字节数组后,字节数组的长度为4,一个汉字对应两个字节
3 UTF-8

使用3个字节来表示一个汉字

		String ch = "浏览器";
		byte[] array = ch.getBytes();
		for(int i=0;i<array.length;i++){
			System.out.print(array[i]);
		}

打印的结果是:-28、-81、-64、-64、-58、-9
先转换为16进制,-28的二进制为28二进制取反后加1,28的二进制代码为:0001 1100,取反为:1110 0011 ,在加1为:1110 0100,对应的16进制为:E4
-81对应的16进制为:AF
查询编码表,"浏"对应的编码为:
GBK:E4AF
UNICODE:6D4F
所以可以确定编码为gbk编码

你可能感兴趣的:(JAVA中文字节编码确认)