再战http request get参数中文乱码

问题描述

通过http get方式下载附件时,参数中指定了原始文件名,请求URL如下:
http://localhost:8080/xxxmail/v1/attachment?accesstoken=aaa-bbb-token&data={"mailId":"123456","fileId":"770826f7","originalFileName":"美女.jpg","presentMethod":"inline"}
两种部署环境:
本机,windows,默认字符编码:UTF-8,IntelliJ IDEA + Jetty 7.6.14
测试环境,linux,默认字符编码:UTF-8,Apache Tomcat/7.0.47

通过浏览器分别请求本机和测试环境,浏览器会自动对URL进行encode。调试发现,请求本机时,服务端获取的originalFileName未乱码,浏览器下载的文件名正常;请求测试环境时,服务端获取的originalFileName已经乱码,导致下载的文件名也乱码;看看乱码猜测是使用ISO-8859-1解码导致的。

问题分析与解决

对比两种情形,不同的只有操作系统环境和web容器,但操作系统的字符编码都一样,这个因素可先放一边。剩下就是web容器了,不同容器在解析URL和request body时决定使用何种字符编码的机制也不同,这极有可能导致换个部署环境就乱码了。根据这篇很赞的博文  深入分析 Java 中的中文编码问题 可知 tomcat 在解析请求时,URL的不同部分、请求的不同部分都有相应的配置来告诉它使用各种字符编码,如果没有配置,默认就会使用ISO-8859-1。
如果要让tomcat使用UTF-8对URL中的QueryString部分进行解析,就需要对${tomcat_home}/conf/server.xml做如下修改:
最后两项为新增配置,URIEncoding="UTF-8"、useBodyEncodingForURI="true"分别告诉tomcat解析URL的URI部分时使用UTF-8,解析QueryString时使用BodyEncoding的编码,对我来说就是UTF-8。useBodyEncodingForURI 这个名字有点让人产生混淆,它并不是对整个 URI 都采用 BodyEncoding 进行解码而仅仅是对 QueryString 使用 BodyEncoding 解码,这一点还要特别注意。经验证确实解决了前述乱码问题。再次感谢这位兄台。

你可能感兴趣的:(技术积累)