1.乱码分类
- 编辑器乱码(idea,eclipse,notepad)
- 数据在页面显示有乱码
- 数据到服务器后有乱码
- 从服务器返回的有乱码
- 使用Ajax收发时有乱码
- 数据库乱码
- nginx乱码
- tomcat乱码
2.解决方案
A 编辑器乱码(文件乱码),自己百度
B 数据在页面显示有乱码
1).jsp编码
pageEncoding="utf-8"告诉tomcat,你编译我jsp文件的时候使用他来编译,如果这句话没有,他默认使用charset=utf-8"这句话来编译,同时注意保存jsp的时候使用编码也应该与pageEncoding="utf-8"保持一致
<%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%>
2).html设置编码格式
还应该用utf-8格式编辑并保存
** C 数据到服务器后有乱码**
通常出现在表单提交数据给服务器,服务器获取时得到的是乱码,以Tomcat为例,出现这种情况是因为没有告诉服务器以什么编码去获取数据,假设页面是以utf-8的编码显示的数据,你填写时没有问题,看起来是没有问题,但是计算机只认识0和1,它在传输过程中是以二进制的样式进入到服务器的,这时你的服务器就不知道它之前是什么编码,如果你没有指定,它就会按照老外的喜好,以iso8859-1的编码去读取,结果就出乱码了.
这种情况的解决方式又要一分为二,为POST
和GET
方式,POST
解决方案很简单,既然获取时有乱码,那么在获取之前,设置编码即可:
request.setCharacterEncoding("utf-8");
然后再使用传统方法获取:
String value = request.getParameter("value");
需要注意,这种设置只对POST
提交有效,如果是GET
则相对麻烦一点.因为乱码是在调用方法getParameter()
时出现的,方法内部的编码肯定出现了问题,既然它不能自动使用UTF-8
,那我们就手动来转:
if(request.getMethod().equalsIgnoreCase("get")){
value = new String(value.getBytes("iso8859-1"),"utf-8");
}
由于POST
提交方式已经得到了解决,我们就只需要在提交方式为GET时进行处理.这样,就能保证服务器获取的数据肯定不是乱码
D 从服务器返回的有乱码
通常只需要设置response
的编码:
response.setCharacterEncoding("utf-8");
然后再设置浏览器的编码为UTF-8
或者通知浏览器以UTF-8
的编码打开
response.setContentType("text/html;charset=utf-8");
这样就能保证浏览器收到的是UTF-8
的数据,并且显示也没有问题.
E 使用Ajax收发时有乱码
1).Javascript函数:escape()
Javascript语言用于编码的函数,一共有三个,最古老的一个就escape()。
虽然这个函数现在已经不提倡使用了,但是由于历史原因,很多地方还在使用它,所以有必要先从它讲起。
实际上,escape()不能直接用于URL编码,它的真正作用是返回一个字符的Unicode编码值。比如“春节”的返回结果是%u6625%u8282,也就是说在Unicode字符集中,“春”是第6625个(十六进制)字符,“节”是第8282个(十六进制)字符。
它的具体规则是,除了ASCII字母、数字、标点符号“@ * _ + - . /”以外,对其他所有字符进行编码。在\u0000到\u00ff之间的符号被转成%xx的形式,其余符号被转成%uxxxx的形式。对应的解码函数是unescape()。
所以,“Hello World”的escape()编码就是“Hello%20World”。因为空格的Unicode值是20(十六进制)。
还有两个地方需要注意。
首先,无论网页的原始编码是什么,一旦被Javascript编码,就都变为unicode字符。也就是说,Javascipt函数的输入和输出,默认都是Unicode字符。这一点对下面两个函数也适用。
其次,escape()不对“+”编码。但是我们知道,网页在提交表单的时候,如果有空格,则会被转化为+字符。服务器处理数据的时候,会把+号处理成空格。所以,使用的时候要小心。
2).Javascript函数:encodeURI()
encodeURI()是Javascript中真正用来对URL编码的函数。
它着眼于对整个URL进行编码,因此除了常见的符号以外,对其他一些在网址中有特殊含义的符号“; / ? : @ & = + $ , #”,也不进行编码。编码后,它输出符号的utf-8形式,并且在每个字节前加上%。
它对应的解码函数是decodeURI()。
需要注意的是,它不对单引号'编码。
3).Javascript函数:encodeURIComponent()
最后一个Javascript编码函数是encodeURIComponent()。与encodeURI()的区别是,它用于对URL的组成部分进行个别编码,而不用于对整个URL进行编码。因此,“; / ? : @ & = + $ , #”,这些在encodeURI()中不被编码的符号,在encodeURIComponent()中统统会被编码。至于具体的编码方法,两者是一样。它对应的解码函数是decodeURIComponent()。
关于URL编码
F 数据库(mysql)乱码
在java项目中的mysql配置文件中加入:
?useUnicode=true&characterEncoding=UTF-8
解决中文乱码问题大全
G nginx乱码
#需要修改nginx的server的配置内容,增加一行:charset utf-8;
upstream you.domainName.com {
server 127.0.0.1:8081;
}
server {
listen 80;
server_name you.domainName.com;
charset utf-8;
location /examples {
}
}
H tomcat乱码
tomcat/conf/sever.xml
在tomcat的bin目录下的catalina.bat加如下一条语句
set JAVA_OPTS=-Xms512m -Xmx1024m -XX:MaxPermSize=1024m -Dfile.encoding=UTF-8
Tomcat启动乱码
各种乱码问题及原理,很全面
java web 中有效解决中文乱码问题-pageEncoding与charset区别, response和request的setCharacterEncoding 区别