Tomcat中文乱码,Tomcat编解码原理

 

                                  解决tomcat中文乱码,了解乱码背后的原因


Tomcat接受浏览器请求,在处理数据时产生乱码,原因是:tomcat不知道浏览器发来数据的编码格式,此时tomcat会使用默认的ISO8859-1去解析,导致乱码。

让tomcat选择正确的编码解析是解决乱码的根本。

请求编码的处理

1. GET请求:

Connector的两个配置项

1.URIEncoding

这个参数用来针对url传参方式,也就是get请求的编码类型的设定

2.useBodyEncodingForURI

一个boolean类型的参数,用来决定url传参方式的编码是否与请求体编码一致,那么请求体编码又如何获取?请看下文”POST请求“

注意:这两个参数只是针对url传参方式,也就是get请求,选其一进行配置即可,tomcat在处理get请求时,会关注这两个参数,并按所指定的编码去解码请求,未设置,默认以ISO8859-1。

2. POST请求

tomcat在接受到一个post请求时,对于请求体编码的获取最多分为3步

1.检查请求头Content-Type是否包含编码信息,比如对于头:Content-Type:application/json;charset=utf-8

tomcat会按ut8的方式进行解码。

2.如果第一步从Content-Type未能找到对应编码,tomcat会检查是否使调用过ServletRequest.setCharacterEncoding(xx)设置过编码,如果有,则使用此编码。

3.对于servlet4.0规范的接口ServletContext新增的接口方法setRequestCharacterEncoding(java.lang.String encoding)用于设置当前应用上下文下所有请求的请求体的编码格式。

4.如果以上三步都没有找到,则使用默认的ISO8859-1。

知道背后原因后就可以总结出解决乱码的方法:对于get请求,我们可以使用useBodyEncodingForURI来让tomcat按照请求体编码去解析请求,对于请求体编码,我们又可以通过过滤器进行拦截,并通过ServletRequest.setCharacterEncoding(xx)设置正确的编码,这样get与post请求编码都统一了。

响应编码的处理

ServletResponse有两个方法用于设置响应的编码格式:

setContentType(“text/html;charset=UTF-8”)

setCharacterEncoding(“UTF-8”)

这两个方法其实有两个作用:

1.向客户端浏览器回响应时,会添加一个content-type头,并指定编码类型为UTF-8,让浏览器知道字节数据的解码类型并正确显示。

2当通过ServletResponse.getWriter()获取Writer,并通过其写入的所有字符串都会默认以UTF-8进行编码为字节输出到浏览器。

当然如果你是通过ServletResponse.getOutputStream()进行直接写入时,tomcat不做任何处理,直接输出到浏览器。

你可能感兴趣的:(tomcat)