Java 中文问题笔记


★ 字符集
GB、GBK 对 ANSI 字符用单字节表示,其他用双字节表示;
GB18030 有二字节的,有四字节的,其中二字节部分和 GBK 兼容,四字节部分是扩展;
unicode 对所有字符都是用两字节表示;
UTF-8 对 ANSI 字符用单字节表示,其他用三字节表示;
上述字符集中除了 unicode,英文字符(ANSI 字符)都与 ANSI 字符集兼容。

★ Java 字符、字节的编码
Java 中 char 是 unicode 编码的,byte 则跟编码有关。String 的核心是 char[],byte 和 String 之间的转换,必须经过编码。在 Java 中,如下语句可以实现将一个字符串从一种编码转换成另一种编码的功能:
String encoding = "GB2312";
String decoding = "UTF8";
str = new String(str.getBytes(decoding), encoding);
其中,str.getBytes(decoding) 的含义是将 str 中的 char 流按字符编码 decoding 进行解码,而 new String(str.getBytes(decoding), encoding) 的含义则是将解码出来的结果按字符编码 encoding 重新编码成 char 流。

★ JSP 的乱码
对于 JSP 的乱码,我们建议的解决办法如下:
1. 我们要保证 JSP 向客户端输出时是采用中文编码方式输出的,即无论如何我们首先在我们的 JSP 源代编中加入以下一行:
<%@page contentType="text/html; charset=gb2312"%>
2. 为了让 JSP 能正确获得传入的参数,我们在 JSP 源文件头加入下面一句:
<%request.setCharacterEncoding("GB2312");%>
3. 为了让 JSP 编译器能正确地解码我们的含有中文字符的 JSP 文件,我们需要在 JSP 源文件中指定我们的 JSP 源文件的编码格式,具体来说,我们在 JSP 源文件头上加入下面的一句即可:
<%@page pageEncoding="GB2312"%> 或 <%@page pageEncoding="GBK"%>
这是 JSP 规范 2.0 新增加的指令。

★ Tomcat 对 JSP 文件的处理
Tomcat 不管当前的操作系统是什么语言, 都按 ISO8859 去编译 JSP。 在 JSP 文件中加上语句 <%@page pageEncoding="GB2312"%> 或 <%@page pageEncoding="GBK"%> 就是针对这个的。

★ IE
大部分 IE 浏览器缺省始终以 UTF-8 发送。在 JSP 文件中加上语句 <%request.setCharacterEncoding("GB2312");%> 就是针对这个的。

★ Servlet 的影响
由 Servlet 转发的页面,其中文处理会受负责转发的 Servlet 影响。因此,如果转发的目标页面中含有中文,就需要在控制 Servlet 中加上如下语句:
response.setContentType("text/html;charset=gb2312");
还要注意的一点是,response 对象的 ContentType 必须在 PrintWriter 对象生成之前指定,也就是说,该句必须加在 PrintWriter 对象生成语句之前。因此,一般情况下都是如下所示:
response.setContentType("text/html;charset=gb2312");
PrintWriter out = response.getWriter();
...

参考:
1. http://www.chedong.com/tech/hello_unicode.html
2. http://blog.csdn.net/wplxb/archive/2006/05/21/748081.aspx
3. http://blog.csdn.net/wplxb/archive/2006/05/23/750296.aspx
4. http://dev.csdn.net/article/70/70317.shtm

你可能感兴趣的:(java,tomcat,jsp,servlet,IE)