Java乱码常规解决方案(一)

Json经过前两篇新手村的煎熬,也终于可以踏上伏龙降虎刺激非凡的大佬(菜鸡)生活。本来觉得还可以水两篇,但是学习是自己的事,况且在发布并转发让人阅读,写那么水肯定石沉大海(虽然本人也只是当作笔记使用)。说起来,我也好久没有写过 什么东西,这也算新的开始吧。好了水也水够了,还是来点干货吧!(ps:由于乱码算是一个大问题,所以我分几天解决,请放心,是系列篇,不会随心所欲的乱更)

❤我是可爱的分界线,分界线❤


  • 初识天地--字符集简述

1. 字符集的简单概念
   字符集是各种文字和符号的总称,包括各个国家的文字、符号、图形符号、数字等,每个字符集包含的字符不同形成了不同的字符集。
2. 常用字符集
  ISO8859-1,GB2312,GBK,GB18030,UNICODE。这里ISO8859-1字符集只 包含英文字符,使用一个字节存储。这里最出色的是UNICODE编码,又称万国码,号称要统一世界的字符集,就我浅薄所知,UNICODE字符集已经编码了20多万个字符,基本涵盖了人们所熟知的国家的字符。而UNICODE又有UTF-8 、UTF-16、UTF-32三个分支,简单对比一下这衍生的三支。
  UTF-8是变长字符集,它兼容ISO8859-1,即英文字符使用一个字节编码,而其他的字符使用2到4个字节编码,其中中文字符大部分都是使用3个字节进行编码,少量偏僻字使用4个字节编码,UTF-16统一都使用2个字节编码,它不兼容ISO8859-1,英文字符也使用两个字节,UTF-32统一使用4个字节编码,也不兼容ISO8859-1,可见UTF-16和UTF-32都比较浪费空间,并且从二进制低8位编码角度看,UTF-8更符合计算机编码习惯,一定程度上节约成本。

  • 惑乱之初--乱码根源

1. Java乱码问题的产生原因
  乱码问题的产生最根本的原因就是使用错误的字符集解码字节流或者将给定的字符串用错误的字符集编码成错误字节流造成的。
  而Java乱码的根本原因就是:Java可以设置字符编码的地方太多,要处理的流的编码解码的地方与之成正比,只要有一处不统一的地方就有出现乱码。

这里引用一个例子做解释:

例如”中文”两个汉字,如果用ISO8859-1字符集将其编码为字节流,因为这个字符集不支持中文,所以就会出错,输出结果为3f3f,其意义就是??。再例如”中文”二字的GBK的字节流为d6 d0 ce c4,可是我们要是用不兼容的字符集去解码,例如用ISO8859-1或者UTF-8,这随后产生的字符串就是乱码,或者是其他的某个字符。这里模拟简单的乱码现象,如图:

Java乱码常规解决方案(一)_第1张图片
模拟乱码.png

  上面的模拟示例,虽说并不是特别合适(因为在实际开发中并不是如此简单),但效果很明显。

    String enc = new String(URLEncoder.encode("我是一个ISO8859-1编码的孩纸", "ISO8859-1"));
    //用UTF-8解码
    String dec = new String(URLDecoder.decode(enc, "UTF-8"));
    System.out.println("编码后被摧残的异国孩子:"+enc+",不成形的的解码:"+dec);

  为了让大家看清楚,我把代码拿了出来,这里的编码字符集是ISO8859-1,而解码字符集是UTF-8,所以在控制台出现了很奇怪的现象,如下:

编码后被摧残的异国孩子:%3F%3F%3F%3FISO8859-1%3F%3F%3F%3F%3F,不成形的的解码:????ISO8859-1?????

除了数字,是不是全是"????" 刺激不!!
说到这里,是不是很想知道Java内部怎么实现编码解码过程的,跟我一起来看把。(ps:以下内容可能很难理解(收集整理),请谨慎食用!!)

我是一个分水岭,分水岭(๓´╰╯`๓)


源代码:在编写java源代码的时候,我们必须把编写的文本保存在文件中,这个时候不管用什么编辑器,都存在一个问题,就是以什么样的字符集将这些源代码(包含汉字)保存到文件中,大部分编辑器都会通过系统的环境变量得到系统的当前默认字符集,编辑器就会使用这个字符集将我们编写的源代码保存到文件中。一般我们的中文Windows系统的默认字符集是GB18030,AIX英文环境的默认字符集是ISO8859-1,AIX中文环境的默认字符集是IBM-eucCN。 编译:在编译.java文件的时候如果使用默认处理,则javac会使用系统当前的默认字符集去读取源文件,将源文件的内容转换为UTF-8编码,然后在进行编译,这时我们也可以通过-encoding参数指定一个字符集,让javac使用我们指定的字符集去读取源代码然后在转换为UTF-8,然后编译。编译以后产生的class文件内部所有的中文字符都是用UTF-8的字符集进行编码的,这就是Java程序能处理任何国家文字的原因。
运行时:Java程序在运行时,需要使用程序内部定义的中文字符串,也可能会使用从外部读取的中文字符串,这些经过处理,可能都会输出到程序外部,在这些 过程中都涉及到编码的转换,程序内部定义的字符串都是用UTF-8存储的。而从外部读取和输出到程序外部的输出又使用什么字符集进行处理呢?在我们没有在 程序中特别指定的情况下,JVM会根据系统属性确定使用哪个字符集,这个系统属性的名称为file.encoding,我们可以在启动java程序的时候通过-D参数设定这个值,如果没有设定,JVM会根据系统环境变量确定这个系统属性,一般我们的中文Windows系统的默认字符集是GB18030,AIX英文环境的默认字符集是ISO8859-1,AIX中文环境的默认字符集是IBM-eucCN。这样JVM在处理输入数据的时候就会把字节流根据这个参数进行解码,然后转成UTF-8格式,在Java程序内部处理,然后再根据这个参数把处理后的数据编码,输出到程序外部。这就是Java程序运行时字符集的使用情况。

  篇幅有限,先解决到这里,怎么样有没有蒙圈,俗话说嚼多不烂,期待下一篇把,下一篇,才是重头戏。


>>>对字符集想了解的,这里推荐一篇博文,详情请点击传送门

 ^❤^  ©Copyright Write@Json

你可能感兴趣的:(Java乱码常规解决方案(一))