网络传输中的中文乱码问题

一、解决乱码问题,要先了解一些基础概念:

1、字符集:在计算机底层中数据存储的都是二进制数据,要想获取真正有意义的字符,就必须让二进制数据与每一个字符对应起来,这种对应关系就形成了一张编码表。

      常用字符集: iso-8859-1  拉丁码表 latin,表示西欧语言,使用一个字节即8位表示数据

                            GB2312  简体中文码表。包含6000-7000中文和符号。用两个字节表示。两个字节都是开头为1,都为负数。

                            GBK  目前最常用的中文码表,2万的中文和符号。用两个字节表示数据。

                            unicode  国际标准码,无论是什么文字,都用两个字节存储

                            UTF-8  基于unicode,一个字节就可以存储数据,不用两个字节存储,而且这个码表更加的标准化,在每一个字节头加入了编码信息。

(Linux 默认使用的iso-88059-1,win32默认使用的GB2312)

2、编码:将字符转换成在字符集中对应的编码

      解码:在字符集中查找出编码对应的字符

二、中文在网络中的传输过程

1、以JAVA为例,eclipse默认使用UTF-8编码集,TOMCAT服务器默认使用iso-8859-1编码集,浏览器一般默认使用GBK编码集。

     程序与服务器之间以字符传输,服务器与浏览器之间以字节传输。

2、中文传输过程:浏览器中的中文字符----->进行编码----->服务器----->进行解码----->程序;

                                程序中的中文字符----->服务器----->进行解码----->浏览器----->编码进行显示

3、乱码产生原因以解决方式:

(1)、浏览器中的中文字符以GBK进行编码,以字节流传输到服务器,服务器再以iso-8859-1进行解码,以字符的形式传输给程序。

因为iso-8859-1编码集不支持中文字符,所有解码后的字符都是西欧字符,把这些字符传输给程序就产生了乱码;

针对这个原因,只要把服务器的编码集设置为utf-8即可:

request.setCharacterEncoding("utf-8") ;

但这种方法只能用于POST请求方式,因为设置只会作用于请求体中的内容,如果是GET请求方式,可用先解码再编码的方式:

byte[] buffer = request.getParameter("word").getBytes("ISO-8859-1");  //进行编码

String newStr = new String(buffer,"UTF-8");  //进行解码

(2)、程序中的中文字符原样传输到服务器,服务器要先对中文字符进行编码再传输给浏览器,但因为iso-8859-1编码集不支持中文字符,所以在字符集中查找不到对应的编码,编码后就变成了问号,传输给了浏览器并显示;

针对这种情况,要进行两次设置:      

response.setCharacterEncoding("UTF-8");      //将服务器编码集设置为UTF-8
response.setContentType("text/html;charset=UTF-8");     //将浏览器编码集设置为UTF-8


实际上第二行设置已经包含了对服务器的设置,所以通常只要写第二句代码即可


你可能感兴趣的:(网络传输中的中文乱码问题)