【GBK、UTF-8、ISO8859-1】编码总结

【GBK、UTF-8、ISO8859-1】编码总结

  • 背景
  • 寻找问题
  • 总结规律
  • 乱码总结

背景

背景:在转发request请求是,RequestBody中参数包含中文,转发后接受中文没有乱码,然后部署到服务器后发现中文全部变成了【???】,判断字符串编码方式和操作系统编码有关。

寻找问题

查询相关资料发现,在Java中,String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。在不同操作系统下得到的返回值不相同!
String.getBytes(charsetName)方法会根据指定的编码返回字符串在该编码下的byte数组。
下面是三种编码返回byte[]数组长度。

	String zh = "中文";
    byte[] byte_gbk = zh.getBytes("GBK");
    byte[] byte_utf8 = zh.getBytes("UTF-8");
    byte[] byte_iso88591 = zh.getBytes("ISO8859-1");
    System.out.println("Byte_GBK:" + byte_gbk.length);
    System.out.println("Byte_UTF8:" + byte_utf8.length);
    System.out.println("Byte_ISO88591:" + byte_iso88591.length);

【GBK、UTF-8、ISO8859-1】编码总结_第1张图片

总结规律

而与getBytes()相对的,可以通过new String(byte[], charsetName)的方式来还原中文时,这个new String(byte[], charsetName)实际是使用指定的编码来将byte[]解析成字符串。
随后我们分别将三种不同编码的byte[]解析成字符串:

     String zh = "中文";
     byte[] byte_gbk = zh.getBytes("GBK");
     byte[] byte_utf8 = zh.getBytes("UTF-8");
     byte[] byte_iso88591 = zh.getBytes("ISO8859-1");
     System.out.println("Byte_GBK:" + new String(byte_gbk, "GBK"));
     System.out.println("Byte_UTF8:" + new String(byte_utf8, "UTF-8"));
     System.out.println("Byte_ISO88591:" + new String(byte_iso88591, "ISO8859-1"));

得到解析结果:
【GBK、UTF-8、ISO8859-1】编码总结_第2张图片
发现GBK和UTF-8都能够正常解析成中文,而ISO8859-1却成为乱码,为什么ISO8859-1编码后无法还原成字符串呢?原因是因为ISO8859-1编码表中没有保护中文字符串,在getBytes(“ISO8859-1”)中就无法得到正确的编码值,也就无法通过new String()进行还原了。

为了能够保证字符串能够正确的传输,每次在getBytes()一定都要指定编码格式;随后在数据接收方以相同的方式进行解析,就能正确获取数据

若遇到必须以ISO8859-1的方式传输中文,我们应该怎么来处理呢?
我们可以先将原字符串编码成UTF-8对应的byte[],再转换成ISO8859-1字符串;这里数据以ISO8859-1的传输到接收方后,再将ISO8859-1字符串编码成byte[],再解析成UTF-8字符串。

    String zh = "中文";
    byte[] byte_utf8 = zh.getBytes("UTF-8");
    String String_ISO8859 = new String(byte_utf8, "ISO8859-1");
    System.out.println("UTF8 byte to ISO8859-1 String: " + String_ISO8859);
    //接收方处理
    byte[] byte_iso88591 = String_ISO8859.getBytes("ISO8859-1");
    String String_UTF8 = new String(byte_iso88591, "UTF-8");
    System.out.println("ISO8859-1 byte to UTF8 String: " + String_UTF8);

【GBK、UTF-8、ISO8859-1】编码总结_第3张图片
通过上面的方式,让我们知道,即使传输协议是ISO8859-1,我们也有办法正确的传输中文。

乱码总结

为了以后看到乱码能够快速判断解决乱码,特意将几种错误的乱码情况展示出来,以供参考。

    String zh = "中文";
    byte[] byte_gbk = zh.getBytes("GBK");
    byte[] byte_utf8 = zh.getBytes("UTF-8");
    byte[] byte_iso88591 = zh.getBytes("ISO8859-1");
    System.out.println("GBK Byte to UTF8 String:" + new String(byte_gbk,"UTF-8"));
    System.out.println("GBK Byte to ISO8859-1 String:" + new String(byte_gbk,"ISO8859-1"));
    System.out.println("UTF8 Byte to GBK String:" + new String(byte_utf8,"GBK"));
    System.out.println("UTF8 Byte to ISO8859-1 String:" + new String(byte_utf8,"ISO8859-1"));
    System.out.println("ISO8859-1 Byte to GBK String:" + new String(byte_iso88591,"GBK"));
    System.out.println("ISO8859-1 Byte to UTF8 String:" + new String(byte_iso88591,"UTF-8"));

【GBK、UTF-8、ISO8859-1】编码总结_第4张图片
因为ISO8859-1编码表中没有中文,ISO8859-1编码中文的byte[]数组,解析成任何格式字符串都变成了问号,包括以ISO8859-1编码解析。

你可能感兴趣的:(Java编码,Java乱码问题,Java)