我们要知道为啥会产生异常?
- post请求(数据在请求体中)参数是通过Request的getReader()来获取流中的数据。
- TOMCAT在获取流中的数据时采用的编码方式是IOS-8859-1
- 而IOS-8859-1并不支持中文,所以产生乱码显现。
解决方案
- 页面设置的编码方式为utf-8
- 把tomcat在获取数据流之前将数据的编码改为utf-8
- 通过request.setCharacterEncoding(“UTF-8”)设置编码,utf-8小写也可以。
样例代码块
/**
* 中文乱码问题解决方案
*/
@WebServlet("/req4")
public class RequestDemo4 extends HttpServlet {
@Override
protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
//1. 解决乱码: POST getReader()
//设置字符输入流的编码,设置的字符集要和页面保持一致
request.setCharacterEncoding("UTF-8");
//2. 获取username
String username = request.getParameter("username");
System.out.println(username);
}
@Override
protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
this.doGet(request, response);
}
}
重新发送POST请求,就会在控制台看到正常展示的中文结果。
至此POST请求中文乱码的问题就已经解决,但是这种方案不适用于GET请求,这个原因是什么呢,咱们下面再分析。
- 这里我们要想为何post请求的中文乱码解决不适用于get请求?
- get请求获取请求参数的方式是request.getQueryString();
- post请求获取请求获取请求参数的方式是request.getReader();
- request.setCharacterEncoding(“utf-8”)是设置request处理流的编码
- getQueryString方法并没有通过流的方式获取数据
所以get请求不能用设置编码的方式来解决中文乱码问题,那我们就要思考如何来解决get请求中文乱码问题?
- 首先我们需要先分析下get请求出现乱码的原因:
- 浏览器通过HTTP协议发送请求和数据给后台服务器(Tomcat)
- 浏览器在发送HTTP的过程中会对中文数据进行URL编码
- 在进行URL编码的时候会采用页面标签指定的UTF-8的方式进行编码,比如张三编码后的结果为%E5%BC%A0%E4%B8%89
- 后台服务器(tomcat)接收到%E5%BC%A0%E4%B8%89后会默认按照ISO-8859-1进行URL解码
- 由于前后编码与解码采用不一致,就会导致后台取到的数据乱码
思考:如果把前端页面的标签的charset属性修改为ISO-8859-1进行URL编码,后台不做操作,能解决中文乱码吗?
分析完上面的问题后,我们会发现,其中有两个我们不熟悉的内容就是URL编码和URL解码,什么是URL编码,什么又是URL解码呢?
这块知识我们只需要了解下即可,具体编码过程分两步,分别是:
- (1)将字符串按照编码方式转为二进制
- (2)每个字节转为2个16进制数并在前边加上%
张三
按照UTF-8的方式转换成二进制的结果为:
1110 0101 1011 1100 1010 0000 1110 0100 1011 1000 1000 1001
这个结果是如何计算的?
使用http://www.mytju.com/classcode/tools/encode_utf8.asp
,输入张三
在计算的十六进制结果中,每两位前面加一个%,就可以获取到%E5%BC%A0%E4%B8%89
。
但是对于上面的计算过程,如果没有工具,纯手工计算的话,相对来说还是比较复杂的,我们也不需要进行手动计算,在Java中已经为我们提供了编码和解码的API工具类可以让我们更快速的进行编码和解码:
java.net.URLEncoder.encode("需要被编码的内容","字符集(UTF-8)");
java.net.URLDecoder.decode("需要被解码的内容","字符集(UTF-8)");
测试一下是否能解码和编码成功:
public class URLDemo {
public static void main(String[] args) throws UnsupportedEncodingException {
String username = "张三";
//1. URL编码
String encode = URLEncoder.encode(username, "utf-8");
System.out.println(encode); //打印:%E5%BC%A0%E4%B8%89
//2. URL解码
//String decode = URLDecoder.decode(encode, "utf-8");//打印:张三
String decode = URLDecoder.decode(encode, "ISO-8859-1");//打印:`å¼ ä¸ `
System.out.println(decode);
}
}
到这,我们就可以分析出GET请求中文参数出现乱码的原因了,
UTF-8
进行URL编码ISO-8859-1
的URL解码å¼ ä¸‰
的乱码,最后一位是个空格2.清楚了出现乱码的原因,接下来我们就需要想办法解决
具体的实现步骤为:
1.按照ISO-8859-1编码获取乱码
å¼ ä¸‰
对应的字节数组2.按照UTF-8编码获取字节数组对应的字符串
代码样例如下:
public class URLDemo {
public static void main(String[] args) throws UnsupportedEncodingException {
String username = "张三";
//1. URL编码
String encode = URLEncoder.encode(username, "utf-8");
System.out.println(encode);
//2. URL解码
String decode = URLDecoder.decode(encode, "ISO-8859-1");
System.out.println(decode); //此处打印的是对应的乱码数据
//3. 转换为字节数据,编码
byte[] bytes = decode.getBytes("ISO-8859-1");
for (byte b : bytes) {
System.out.print(b + " ");
}
//此处打印的是:-27 -68 -96 -28 -72 -119
//4. 将字节数组转为字符串,解码
String s = new String(bytes, "utf-8");
System.out.println(s); //此处打印的是张三
}
}
我们通过查看API文档可以知道String可以将字节数组进行转码
/**
* 中文乱码问题解决方案
*/
@WebServlet("/req4")
public class RequestDemo4 extends HttpServlet {
@Override
protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
//1. 解决乱码:POST,getReader()
//request.setCharacterEncoding("UTF-8");//设置字符输入流的编码
//2. 获取username
String username = request.getParameter("username");
System.out.println("解决乱码前:"+username);
//3. GET,获取参数的方式:getQueryString
// 乱码原因:tomcat进行URL解码,默认的字符集ISO-8859-1
/* //3.1 先对乱码数据进行编码:转为字节数组
byte[] bytes = username.getBytes(StandardCharsets.ISO_8859_1);
//3.2 字节数组解码
username = new String(bytes, StandardCharsets.UTF_8);*/
username = new String(username.getBytes(StandardCharsets.ISO_8859_1),StandardCharsets.UTF_8);
System.out.println("解决乱码后:"+username);
}
@Override
protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
this.doGet(request, response);
}
}
注意
request.setCharacterEncoding("UTF-8")
代码注释掉后,会发现GET请求参数乱码解决方案同时也可也把POST请求参数乱码的问题也解决了另外需要说明一点的是Tomcat8.0之后,已将GET请求乱码问题解决,设置默认的解码方式为UTF-8