【J2EE】Servlet之中文乱码问题

写在前面

最近在学习J2EE的一些基础知识,找了一些学习资料,深感Java相关学习内容的纷繁复杂,迫切需要理出一条脉络,后来我就找到了这个:3y的github。
里面有很多的文章写的很不错,包括一些知识和一些方法论,可以很好地帮助构建知识体系,有兴趣的小伙伴也可以参考哈。

举个例子

response.getWriter().write("中文内容");

这样的代码会在浏览器/Postman中看到 ?? 的结果,这就是一个很常见的乱码问题了。

问题根源

Tomcat结构

通过上图我们可以看到Tomcat服务器在处理请求时的一个流程和结构,通过Tomcat的Connector线程池,将请求根据URL分发到对应的Host(域名)和Context上(Web应用)。Web应用内再分发到具体的Servlet上。

而从浏览器传输到服务器时,需先将中文编码为字节序列,而Tomcat服务器再将字节序列解码为字符串。Tomcat默认使用的编码格式是ISO 8859-1 ,并不支持中文;而我们在浏览器中一般使用UTF-8编码格式以支持中文。

编码方式

UTF-8

Unicode:指字符集,为每一个“字符”分配一个唯一的ID(码位);例如“知”的码位是 30693,记作 U+77E5(30693 的十六进制为 0x77E5)。

UTF-8:指编码规则,定义了如何将一个Unicode中的ID(码位)编码为字节序列;例如将“知”的码位U+77E5编码为字节序列E79FA5。

UTF-8使用1-4个字节为Unicode进行编码,一般汉字用3-4个字节进行编码;由于UTF-8编码后的字节序列为可变长度,所以更省空间;

ISO 8859-1

为一种使用单字节进行编码的编码规则,支持部分欧洲使用的语言,但是并不支持中文;

解决方案

Servlet Response 输出

此时需要设置response的编码规则:response.setContentType("text/html;charset=UTF-8");

该语句将做两件事:

  • response.setCharacterEncoding("UTF-8") 设置Tomcat对于Response的编码规则改为UTF-8
  • response.setHeader("Content-Type","text/html;charset=UTF-8"); 设置浏览器的内容格式和解码方式

Servlet Request 输入

  1. Post参数:通过request.setCharacterEncoding("UTF-8")即可设置Tomcat解码方式为UTF-8,即可正常解出中文
  2. Get参数:需要注意Get的参数在URL中而不在HTTP Body中,所以不能通过和Post一样的方式解决;好在>=Tomcat 8.0时,默认的URI解码方式已经为UTF-8了,所以不用特殊处理了(见参考的第一条)

注意:对于Tomcat <8.0时,解决Get参数的乱码问题需要进行手动解码或者修改Tomcat配置,较为复杂,所以提交数据尽量使用post。

参考

  1. Tomcat Character Encoding
  2. 3y讲Servlet
  3. Unicode和UTF-8有什么区别
  4. ISO 8859-1

你可能感兴趣的:(【J2EE】Servlet之中文乱码问题)