rodesad

java中文编码（字符集）分析-中文乱码分析及解决方案

注：本文部分内容摘自网络，摘抄内容版权归原作者所有。

1. 背景知识

1.1. Http协议

1.1.1. URL和URI

1.1.2. 媒体类型定义

HTTP 在 Content-Type（14.17 节）和 Accept（14.1 节）头部域中使用因特网媒体类型 [17]，为了提供打开和可扩展的数据类型和类型协议。

media-type = type "/" subtype *( ";" parameter )

type = token

subtype = token
parameter【可以】接在 type/subtype 后面，按 attribute/value 对的形式（如 3.6 节中所定义）。
type、subtype 和 parameter 属性名是大小写非敏感的。 parameter 值可以是或不是大小写敏感的，取决于 parameter 名称的语义。【禁止】在 type 和 subtype 间使用线性空白符（LWS），属性与其值间也禁止。存在或缺少 parameter 可以对 media-type 处理有意义，取决于媒体类型注册表中的定义。

要注意，一些老的 HTTP 应用程序不认识媒体类型参数。当发送数据给老 HTTP 应用程序时，实现【应该】只在该 type/subtype 定义需要时使用媒体类型的参数。

media-type 的值由因特网分配数字权威（IANA [19]）注册。媒体类型注册过程在 RFC

1.1.3. 和字符集相关的指令

在jsp、servlet和html，指定IE按照那一种字符集，解析字节流。即：IE中html页面的默认页面编码。

JSP文件中ContentType，指定传输内容的编码格式。如下：

<%@ pagecontentType="text/html;charset=GBK"%>。
Java Servlet中，在response对象中设置。如下：

response.setContentType("text/html;charset=GBK");
HTML中，通过<meta http-equiv>元素设置。如下：

<META HTTP-EQUIV="Content-Type" CONTENT="text/html;CHARSET=GBK">

2. “火”的编码

“火” 字，

UTF-8 编码：0xE781AB

GBK 编码：0xBBF0

GB2312编码：0xBBF0

3. 在地址栏中输入地址，提交

3.1. 涉及参数

IE选项à高级：

3.2. “以UTF-8发送”选中，不带中文参数

IE选项à高级：

地址中出现中文，例如：

浏览器把中文“火”字，先按照UTF-8编码转译，如下：

把这个地址转ISO-8859-1编码；下图，浏览器提交字节流，二进制编码；如下：

服务器端响应的二进制流编码：

3.3. “以UTF-8发送”选中，带中文参数

IE选项à高级：

地址，方式：js调用、地址栏输入。

浏览器把url地址中“火”字，先按照UTF-8编码转译，？后参数的火字，按照页面编码转码（页面编码GBK），：

过程为：url地址处理，将中文字符转为%的形式，将转译后的字符串作为新的地址字符串；将地址和参数编译为字节流，地址按照ISO-8859-1编码，参数按照gbk编码（页面编码）。

当页面字符集时UTF-8时，提交字节流，如下：

参数编码为UTF-8编码。

3.4. “以UTF-8发送”不选中

IE选项à高级：

地址中出现中文，例如：

提交字符串，直接包括“火”字。

浏览器提交字节流，二进制编码：

“火”字的编码bbf0是GBK字符集格式的编码。

服务器端响应的二进制流编码：

此时的过程为：

浏览器将“火”字按照GBK编码 bbf0 的字节流发送到服务器端，服务器端默认按照ISO-8859-1解析该字节流，服务器端进行处理（解析的目的是转换为UTF-16的内部编码，注意：这里是以字符为基准的转换，因为二进制字节流是没有意义的，只有转换为字符后，才能找到utf-16中对应的编码，或者说，是把字符iso-8859-1对应的码值转换为utf-16中对应的码值），处理完毕后按照UTF-8字符集转换字节流编码（c2bbc3b0），输出到客户端。注意utf-16转换是无损的。当然如果出现，gbk转换为iso8859-1出现信息损伤是不可恢复的。

结论：

不选中时，URL地址中的汉字，按照页面字符集进行编码。

3.5. 结论

地址栏中输入的URL地址字符串，在提交给服务器端时，对URL分成两块单独编码；“？”前的地址为一部分；“？”后的参数为一部分。

地址部分，在“以UTF-8”选中时，地址部分出现的多字节字符，按照UTF-8转码；如果未选中，按照操作系统默认字符集进行编码。

参数部分，和“以UTF-8”参数无关，按照操作系统默认字符集进行编码。

4. 通过js方式提交地址

4.1. 对URL地址不转码提交

不转码和get方式相同。例如：
提交URL

原始URL：

页面编码为UTF-8
提交到Web服务器端，

URL编码

查看userid后的编码

0xe781，编码格式是UTF-8，和页面字符集一致。
结论

和在地址栏直接输入URL一致。

4.2. 对URL地址转码提交

对URL地址转码，通过调用encodeURI或encodeURIComponent函数，对整体的URL地址（包括参数）中非ANSI字符（见encodeURI方法的描述）进行编码，编码字符集为UTF-8（指定其他字符集也无效），在URL中显示的格式为，%+十六进制的字符序列。

原始URL：

转码后的URL：

提交到Web服务器中的URL（拦截得到）：

4.3. 转码提交后解析过程

在上述两种情况中，应用服务器默认编码为ISO-8859-1，服务器不能正确解析该URI。结果如下：

未转码：

转码：

解析过程

应用服务器（Tomcat）对地址中的%E7%81%AB进行解析过程为，去掉%号，将%后的字符作为HEX数，根据Tomcat设置的字符集翻译为字符。Tomcat默认字符集为ISO-8859-1，使用ISO-8859-1对E7，81翻译为字符，发现E7，81超出ISO-8859-1的代码空间，不识别该字符，翻译为“？”（即0x3f）。

解决方法，（一）将应用服务器字符集设置UTF-8；（二）将对字节序列的转码放到程序中实现。

方法（一）在server.xml中的<connect/>元素中，添加URIEncoding=”UTF-8”属性。

方法（二）在客户端二次转码encodeURI(encodeURI(url))，此时url字符串为：

详见下面样例。注意，此方法，只能对URL字符串中参数部分解析，对URI中地址部分不能解析。

4.4. 转码提交解析样例

4.4.1. 环境设置

环境设置

目标文件所在目录：urlencode\火\urlencode-2.jsp

IE页面字符集：UTF-8。

IE选项：选中“以UTF-8发送”。

request编码设置：

4.4.2. 应用服务器设置UTF-8字符集

设置URIEncoding为UTF-8

Tomcat配置文件设置URI解析字符集
过程

通过js请求的URL：

提交到服务器端的地址串（截获）：

结果：成功。

成功页面显示的地址：
结论：

Tomcat应用服务器设置的字符集对URI进行解码。

4.4.3. 二次转码和二次解码

URL地址中不包含中文

请求的URL
IE编码后提交服务器端的字符串
直接从request中获取的值
通过URLDecode类解码后的值

URL地址中包含中文

请求的URL
IE编码后提交服务器端的字符串
失败页面

4.5. 结论

js提交的URL地址字符串，在提交给服务器端时，对URL分成两块单独编码；“？”前的地址为一部分；“？”后的参数为一部分。

地址部分，在“以UTF-8”选中时，地址部分出现的多字节字符，按照UTF-8转码；如果未选中，按照页面默认字符集进行编码。

参数部分，和“以UTF-8”参数无关，按照页面默认字符集进行编码。

5. 服务端解析

对URI的解析

对URI的解析包括两部分，地址部分和参数部分。应用服务器根据指定的字符集解析URI中的地址部分和参数部分，即以GET方式提交的数据。

注意二次编码和二次解析，只能解析参数，不能解析URI。
对提交数据内容的解析

以GET方式提交的数据，根据应用服务器的字符集解析。在应用中设置request.setCharacterEncoding()不起作用。

以Post方式提交的数据，根据request.setCharacterEncoding()确定的字符集解析。默认字符集为Java默认的字符集，java默认的字符集为操着系统默认的字符集。

6. URI允许的字符

ASCII字母、数字、保留字符、标记字符

7. 结论

7.1. 在地址栏输入URL，编码和解码

URL地址部分（“？之前”）：

编码

选中“以UTF-8发送”，非多字节序列的字符，被转译为UTF-8字节序列。例如，汉字被转译为%A1%B0格式，其中A1是汉字对应的UTF-8编码，让后整个URL按照ISO-8859-1编码发送到服务器端。服务器端以ISO-8859-1解码。

未选中“以UTF-8发送”，URL地址的编码，按照操作系统默认字符集进行编码。
解码

服务器端默认按照iso-8859-1解码，可以手工修改应用服务器的URI解析字符集

URL地址后的参数（?后的部分）

编码：

按照操作系统默认字符集进行编码。
解码：

在Tomcat中，服务器端默认按照iso-8859-1解码，不会使用request.setCharacterEncode()方法设置的字符集解码。

7.2. js方式提交URL，编码和解码

URL地址部分（“？之前”）

编码

        选中“以UTF-8发送”，和在地址栏输入URL相同。如果js做了转码，URL字符串则是符合URL规范的字符串。

        未选中“以UTF-8发送”，URL地址的编码，按照IE页面默认字符集进行编码。

解码

        服务器端默认按照iso-8859-1解码，可以手工修改应用服务器的URI解析字符集。将%的字节序列，转换为字符。
URL地址后的参数（?后的部分）

编码：

按照IE页面默认字符集进行编码。如果js做了转码，URL字符串则是符合URL规范的字符串。

解码：

在Tomcat中，服务器端默认按照iso-8859-1解码，不会使用request.setCharacterEncode()方法设置的字符集解码。将%的字节序列，转换为字符。

7.3. GET内容编码和和解码

指：URL地址中“？”之后的部分。

以页面编码字符集，对提交内容进行编码；见“以’UTF-8发送’选中，带参数”部分。

转码：如果调用encodeURI进行转译，在服务器端接收时，需要做相应的解码（详见“对URL地址转码”小节），有两种方式，一在tomcat端设置URI的字符集为UTF-8字符集；二、tomcat默认字符集（ISO-8859-1）；客户端进行二次转码；tomcat应用服务器接收时一次解码，在代码中使用URLDecode类进行二次解码。

编码：如果不对地址转码，直接提交，参数一页面字符集进行编码。

解码：则以应用服务器（Tomcat）设置的默认字符集进行解析。 equest.setCharacterEncoding()命令无效。

7.4. Post内容编码和解码

编码：以页面编码字符集，对提交内容进行编码。

解码：服务器端根据

request.setCharacterEncoding("GBK");

命令进行解码。

7.5. IE“以UTF-8发送”参数

该选项的转换的范围包括：1）在地址栏直接输入的URL地址字符串；2）js中提交的URL地址字符串。不包括“？”之后的部分。

将URL地址部分（“？”之前的部分）按照UTF-8编码，效果和encodeURI一致。“？”后面的参数部分不做转码。

7.6. 设置Tomcat URIEncoding参数

Tomcat配置文件设置URI解析字符集

对提交的整个URI进行解析（包括参数部分，不包括IP地址和端口）。

8. URI转码函数

8.1. encodeURI / decodeURI函数

“转义”定义

所谓转义，程序用指定的字符构成，当程序处理组成本程序的字符时，或者该字符不可识别时，此时程序会默认将该字符作为程序本身的字符进行处理，而不是作为被处理对象的内容进行处理。对于此种情况，则需要转义，即转义字符后的字符，表示的不是本意，例如我们常见的换行“/n”，“/”表示转义字符，即后面的字符“n”表示的含义已经不是原来26个字母中n的语义，而是表示换行。

同理在URL中%表示后面的为字符编码。
encodeURI()

转译URI中的字符。

摘要：encodeURI(uri)

参数：

        uri 一个字符串，含有uri或者需要编码的文本。

返回值：

        uri的副本，其中某些字符被十六进制的转译序列替代了。

抛出：

        说明uri中含有格式化错误的Unicode替代对，不能编码。

描述：

        encodeURI()是全局函数，返回uri的编码副本。ASCII的字母和数字不编码，此外以下的ASCII标点符号（ASCII Mark）也不编码。

        因为endcodeURI()目的是给URI进行完整的编码，所以URI中有特殊含义的保留字符，也不转义。

        除了上述四种字符（ASCII字母、数字、保留字符、标记字符），uri中的其他字符都将转换成它的UTF-8的编码字符，
decodeURI()

8.2. encodeURIComponent / decodeURIComponent

8.3. 两者区别

<以下摘自EMCA-262>

【大意：】对于保留字符“：”，“/”，“；”和“？”encodeURI是不编码的的，encodeURICompoent方法是编码的。

9. 样例

环境

js将url进行编码（调用encodeURI方法）提交。

IE页面设置的字符集为：GBK。

url地址提交的数据，key：userid，“火”。

form表单提交的数据：key：userid1,“火”。

即：

url地址按照UTF-8编码，提交。

get参数按照UTF-8编码，提交。

post参数按照GBK编码，提交。

1）GET提交数据：

截获的提交字符串。

得出，get提交的数据，被转义为UTF-8的十六进制序列。

2）提交post数据：

编码

根据编码可以得出，POST提交数据是GBK编码。
Tomcat 按照默认编码（ISO-8859-1）

找不到。

结果如下：
Tomcat 按照UTF-8编码

Tomcat按照UTF-8解析URI字节流。

当request设置GBK字符集，post数据可识别，设置代码，如下：

结果如下：

如果不显示的设置request编码，出现乱码，如下：

userid的解码字符集，为UTF-8，即tomcat中URIEncoding中设置的字符集。

10. 处理流程

准备：需要提交的URL：http://localhost/urlencode/火/urlencode-2.jsp?userid='火'

第一步：输入URL地址，获得URL字符串

包括两种：

在地址栏直接输入URL字符串。
调用js方法输入URL字符串。在此方式中，可以对URL字符串进行转码操作（调用encodeURI /encodeURIComponent 方法，将URL规则以外的字符，转换为十六进制的字符序列）得到转换后的字符串。最为最终的URL字符串。如下：

第二步：IE对提交URL字符串进行编码

       首先查看“以UTF-8发送”是否选中，如果选中，对URL字符串中的地址部分（不包括“？”后的参数），进行转码。未选中，保留字符串不变。

       按照页面编码字符集对URL字符串（整体）进行编码。

第三步：通过HTT协议提交到服务器端

第四步：服务器对解码。

       服务器端解码，包括两部分，如下：

一：应用服务器解析URL。

       应用服务器接受到请求的字节序列，按照指定的字符集（Tomcat默认是ISO-8859-1）对字节流解码。注意：遇到“%”，将“%”后的字符按照十六进制字节序列处理，按照指定的字符集转换为相应的字符串。

       注意：如果客户端调用encodeURI方法，对URL字符串进行转换，应用服务器端字符集应设置为UTF-8，和客户端保持一致。如果依旧为默认的ISO-8859-1，则需要应用程序对提交UTF-8字符进行解码，此时需要IE客户端对URL进行二次重复转换（ encodeURI(encodeURI(url)) ）。

二：应用服务器解析提交的内容。

       应用服务器读取request.setCharacterEncoding()方法设置的字符集，对提交的内容进行解码，提交的内容包括：post内容，和get方式的内容。

11. HTML

指定了页面内容的字符集，被绑定到http响应头信息中，如果jsp中也设置了，jsp优先。

12. jsp字符集

<%@page contentType="text/html;charset=GBK" %>

指令，表示jsp文件以gbk格式的字节流，应答给客户端。

当jsp源文件以gbk保存，而在page中，标记为utf-8。

例子：

汉字：火。

12.1. 完整的JSP文件

<%@ page pageEncoding="GBK" %>

<%@ page contentType="text/html;charset=GBK" %>

<HTML>

<HEAD>

<TITLE> New Document</TITLE>

</HEAD>

</HTML>

12.2. GBK保存，contentType：GBK，pageCoding：无

<%@ page contentType="text/html;charset=GBK" %>

文件保存ansi/GBK格式。

IE访问正常。

找到该jsp对应的java文件，“火”字显示正常，如下：

以二进制打开，该字符二进制显示，如下：

（“火”字的UTF-8编码值）

根据字符映射，java文件的保存编码为UTF-8格式。

12.3. GBK保存，contentType：UTF-8，pageCoding：无

在jsp文件中，如下：

<%@page contentType="text/html;charset=UTF-8" %>

将jsp文件保存GBK格式。部署到Tomcat，通过IE访问。页面如下：

显示乱码。

找到该jsp对应的java文件，“火”字显示乱码，以二进制打开，该字符二进制显示，如下：

该结果，以UTF-8读取GBK字节流结果一致。即以GBK格式转换“火”的字节流保存在磁盘上，应用服务器以utf-8格式解析该字节流。

12.4. GBK保存，contentType：UTF-8，pageCoding GBK

添加头

<%@page pageEncoding="GBK" %>

<%@page contentType="text/html;charset=UTF-8" %>

将jsp文件保存GBK格式。部署到Tomcat，通过IE访问，显示正常，IE显示的编码格式为UTF-8，。

http响应头信息：

找到该jsp对应的java文件，“火”字显示正常，如下：

以二进制打开，该字符二进制显示，如下：

根据字符映射，java文件的保存编码为UTF-8格式。

另：将头改为

<%@page pageEncoding="GBK" %>

<%@page contentType="text/html;charset=GBK"%>后，显示正常。

HTTP头显示为：

找到该jsp对应的java文件，“火”字显示正常，如下：

12.5. 步骤

JSP文件载入
- 从硬盘中读取JSP文件，得到该文件的二进制流。
- 应用服务器根据指定的字符集解码JSP文件。
生成Servlet
- 调用JSP引擎，生成Servlet文件，根据指定字符集编码，保存到硬盘上。
- 编译Servlet，生成class文件。
生成应答的输出流
- 根据指定的字符集，加载该Servlet的class文件。
- 根据Servlet指定的字符集，生成输出流。
IE接收并到输出流
- IE客户端接收字节流
- 根据指定字符集生成HTML页面

12.6. 结论

jsp文件被应用服务器编译为java文件后，java文件以utf-8格式保存。
应用服务器读取jsp文件，读取的字符集，按照jsp的pageEncoding指令决定，如下：

<%@ page pageEncoding="GBK" %>

如果没有设置该指令，以默认取contentType属性值。
在contentType属性中，mimeType指示浏览器显示内容的格式，即用什么应用程序或者字符集显示内容；text/html，设置response的输出字节流，返回客户端的字节流编码格式。

<%@ page contentType=" text/html;charset=UTF-8" %>

应用服务器将该指令的内容，绑定到HTTP响应头中，浏览器根据响应头信息解码。

13. java平台字符集

char类型的编码为utf-16的编码格式。由char组成String，String为平台提供操作字符的工具。String是基础，char则是构建基础的元素。

java源文件，由本地操作系统决定。javac在读取源文件时，默认读取本地操作系统的字符集，读取java源文件。

javac编译class文件为unicode字符集，编码为utf-8格式。

jvm运行，字符集为unicode字符集，编码格式utf-16格式。

14. Tomcat处理内容的默认编码

、Tomcat 6.0设置字符集， URIEncoding="UTF-8"

15. 字符集编码-问题研究（摘自网络）

15.1. 概述

本文主要包括以下几个方面：编码基本知识，java，系统软件，url，工具软件等。

在下面的描述中，将以"中文"两个字为例，经查表可以知道其GB2312编码是"d6d0 cec4"，Unicode编码为"4e2d 6587"，UTF编码就是"e4b8ad e69687"。注意，这两个字没有iso8859-1编码，但可以用iso8859-1编码来"表示"。

15.2. 编码基本知识

最早的编码是iso8859-1，和ascii编码相似。但为了方便表示各种各样的语言，逐渐出现了很多标准编码，重要的有如下几个。

15.2.1. iso8859-1

属于单字节编码，最多能表示的字符范围是0-255，应用于英文系列。比如，字母'a'的编码为0x61=97。

很明显，iso8859-1编码表示的字符范围很窄，无法表示中文字符。但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用iso8859-1编码来表示。而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在iso8859-1编码，以gb2312编码为例，应该是"d6d0 cec4"两个字符，使用iso8859-1编码的时候则将它拆开为4个字节来表示："d6 d0 ce c4"（事实上，在进行存储的时候，也是以字节为单位处理的）。而如果是UTF编码，则是6个字节"e4 b8 ad e6 96 87"。很明显，这种表示方法还需要以另一种编码为基础。

15.2.2. GB2312/GBK

这就是汉子的国标码，专门用来表示汉字，是双字节编码，而英文字母和iso8859-1一致（兼容iso8859-1编码）。其中gbk编码能够用来同时表示繁体字和简体字，而gb2312只能表示简体字，gbk是兼容gb2312编码的。

15.2.3. unicode

这是最统一的编码，可以用来表示所有语言的字符，而且是定长双字节（也有四字节的）编码，包括英文字母在内。所以可以说它是不兼容iso8859-1编码的，也不兼容任何编码。不过，相对于iso8859-1编码来说，uniocode编码只是在前面增加了一个0字节，比如字母'a'为"00 61"。

需要说明的是，定长编码便于计算机处理（注意GB2312/GBK不是定长编码），而unicode又可以用来表示所有字符，所以在很多软件内部是使用unicode编码来处理的，比如java。

15.2.4. UTF

考虑到unicode编码不兼容iso8859-1编码，而且容易占用更多的空间：因为对于英文字母，unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而产生了utf编码，utf编码兼容iso8859-1编码，同时也可以用来表示所有语言的字符，不过，utf编码是不定长编码，每一个字符的长度从1-6个字节不等。另外，utf编码自带简单的校验功能。一般来讲，英文字母都是用一个字节表示，而汉字使用三个字节。

注意，虽然说utf是为了使用更少的空间而使用的，但那只是相对于unicode编码来说，如果已经知道是汉字，则使用GB2312/GBK无疑是最节省的。不过另一方面，值得说明的是，虽然utf编码对汉字使用3个字节，但即使对于汉字网页，utf编码也会比unicode编码节省，因为网页中包含了很多的英文字符。

15.3. java对字符的处理

在java应用软件中，会有多处涉及到字符集编码，有些地方需要进行正确的设置，有些地方需要进行一定程度的处理。

15.3.1. getBytes(charset)

这是java字符串处理的一个标准函数，其作用是将字符串所表示的字符按照charset编码，并以字节方式表示。注意字符串在java内存中总是按unicode编码存储的。比如"中文"，正常情况下（即没有错误的时候）存储为"4e2d6587"，如果charset为"gbk"，则被编码为"d6d0 cec4"，然后返回字节"d6 d0 ce c4"。如果charset为"utf8"则最后是"e4 b8 ad e6 96 87"。如果是"iso8859-1"，则由于无法编码，最后返回 "3f 3f"（两个问号）。

15.3.2. newString(charset)

这是java字符串处理的另一个标准函数，和上一个函数的作用相反，将字节数组按照charset编码进行组合识别，最后转换为unicode存储。参考上述getBytes的例子，"gbk" 和"utf8"都可以得出正确的结果"4e2d 6587"，但iso8859-1最后变成了"003f 003f"（两个问号）。

因为utf8可以用来表示/编码所有字符，所以new String( str.getBytes("utf8" ), "utf8" ) === str，即完全可逆。

15.3.3. setCharacterEncoding()

该函数用来设置http请求或者相应的编码。

对于request，是指提交内容的编码，指定后可以通过getParameter()则直接获得正确的字符串，如果不指定，则默认使用iso8859-1编码，需要进一步处理。参见下述"表单输入"。值得注意的是在执行setCharacterEncoding()之前，不能执行任何getParameter()。java doc上说明：This method must be called priorto reading request parameters or reading input using getReader()。而且，该指定只对POST方法有效，对GET方法无效。分析原因，应该是在执行第一个getParameter()的时候，java将会按照编码分析所有的提交内容，而后续的getParameter()不再进行分析，所以setCharacterEncoding()无效。而对于GET方法提交表单是，提交的内容在URL中，一开始就已经按照编码分析所有的提交内容，setCharacterEncoding()自然就无效。

对于response，则是指定输出内容的编码，同时，该设置会传递给浏览器，告诉浏览器输出内容所采用的编码。

15.3.4. 处理过程

下面分析两个有代表性的例子，说明java对编码有关问题的处理方法。

15.3.4.1. 表单输入

Userinput *(gbk:d6d0 cec4) browser *(gbk:d6d0cec4) web server iso8859-1(00d6 00d 000ce 00c4) class，需要在class中进行处理：getbytes("iso8859-1")为d6 d0 ce c4，new String("gbk")为d6d0 cec4，内存中以unicode编码则为4e2d 6587。

l 用户输入的编码方式和页面指定的编码有关，也和用户的操作系统有关，所以是不确定的，上例以gbk为例。

l 从browser到web server，可以在表单中指定提交内容时使用的字符集，否则会使用页面指定的编码。而如果在url中直接用?的方式输入参数，则其编码往往是操作系统本身的编码，因为这时和页面无关。上述仍旧以gbk编码为例。

l Web server接收到的是字节流，默认时（getParameter）会以iso8859-1编码处理之，结果是不正确的，所以需要进行处理。但如果预先设置了编码（通过request. setCharacterEncoding ()），则能够直接获取到正确的结果。

l 在页面中指定编码是个好习惯，否则可能失去控制，无法指定正确的编码。

15.3.4.2. 文件编译

假设文件是gbk编码保存的，而编译有两种编码选择：gbk或者iso8859-1，前者是中文windows的默认编码，后者是linux的默认编码，当然也可以在编译时指定编码。

Jsp *(gbk:d6d0 cec4) java file *(gbk:d6d0 cec4) compilerread uincode(gbk: 4e2d 6587; iso8859-1: 00d6 00d 000ce 00c4) compilerwrite utf(gbk: e4b8ad e69687; iso8859-1: *) compiled file unicode(gbk: 4e2d 6587; iso8859-1: 00d6 00d 000ce 00c4) class。所以用gbk编码保存，而用iso8859-1编译的结果是不正确的。

class unicode(4e2d 6587) system.out / jsp.out gbk(d6d0 cec4) os console / browser。

l 文件可以以多种编码方式保存，中文windows下，默认为ansi/gbk。

l 编译器读取文件时，需要得到文件的编码，如果未指定，则使用系统默认编码。一般class文件，是以系统默认编码保存的，所以编译不会出问题，但对于jsp文件，如果在中文windows下编辑保存，而部署在英文linux下运行/编译，则会出现问题。所以需要在jsp文件中用pageEncoding指定编码。

l Java编译的时候会转换成统一的unicode编码处理，最后保存的时候再转换为utf编码。

l 当系统输出字符的时候，会按指定编码输出，对于中文windows下，System.out将使用gbk编码，而对于response（浏览器），则使用jsp文件头指定的contentType，或者可以直接为response指定编码。同时，会告诉browser网页的编码。如果未指定，则会使用iso8859-1编码。对于中文，应该为browser指定输出字符串的编码。

l browser显示网页的时候，首先使用response中指定的编码（jsp文件头指定的contentType最终也反映在response上），如果未指定，则会使用网页中meta项指定中的contentType。

15.3.5. 几处设置

对于web应用程序，和编码有关的设置或者函数如下。

15.3.5.1. jsp编译

指定文件的存储编码，很明显，该设置应该置于文件的开头。例如：<%@page pageEncoding="GBK"%>。另外，对于一般class文件，可以在编译的时候指定编码。

15.3.5.2. jsp输出

指定文件输出到browser是使用的编码，该设置也应该置于文件的开头。例如：<%@ page contentType="text/html; charset= GBK" %>。该设置和response.setCharacterEncoding("GBK")等效。

15.3.5.3. meta设置

指定网页使用的编码，该设置对静态网页尤其有作用。因为静态网页无法采用jsp的设置，而且也无法执行response.setCharacterEncoding()。例如：<META http-equiv="Content-Type"content="text/html; charset=GBK" />

如果同时采用了jsp输出和meta设置两种编码指定方式，则jsp指定的优先。因为jsp指定的直接体现在response中。

需要注意的是，apache有一个设置可以给无编码指定的网页指定编码，该指定等同于jsp的编码指定方式，所以会覆盖静态网页中的meta指定。所以有人建议关闭该设置。

15.3.5.4. form设置

当浏览器提交表单的时候，可以指定相应的编码。例如：<form accept-charset= "gb2312">。一般不必不使用该设置，浏览器会直接使用网页的编码。

15.4. 系统软件

下面讨论几个相关的系统软件。

15.4.1. mysql数据库

很明显，要支持多语言，应该将数据库的编码设置成utf或者unicode，而utf更适合与存储。但是，如果中文数据中包含的英文字母很少，其实unicode更为适合。

数据库的编码可以通过mysql的配置文件设置，例如default-character-set=utf8。还可以在数据库链接URL中设置，例如： useUnicode=true&characterEncoding=UTF-8。注意这两者应该保持一致，在新的sql版本里，在数据库链接URL里可以不进行设置，但也不能是错误的设置。

15.4.2. apache

appache和编码有关的配置在httpd.conf中，例如AddDefaultCharset UTF-8。如前所述，该功能会将所有静态页面的编码设置为UTF-8，最好关闭该功能。

另外，apache还有单独的模块来处理网页响应头，其中也可能对编码进行设置。

15.4.3. linux默认编码

这里所说的linux默认编码，是指运行时的环境变量。两个重要的环境变量是LC_ALL和LANG，默认编码会影响到java URLEncode的行为，下面有描述。

建议都设置为"zh_CN.UTF-8"。

15.4.4. 其它

为了支持中文文件名，linux在加载磁盘时应该指定字符集，例如：mount /dev/hda5 /mnt/hda5/ -t ntfs -o iocharset=gb2312。

另外，如前所述，使用GET方法提交的信息不支持request.setCharacterEncoding()，但可以通过tomcat的配置文件指定字符集，在tomcat的server.xml文件中，形如：<Connector ...URIEncoding="GBK"/>。这种方法将统一设置所有请求，而不能针对具体页面进行设置，也不一定和browser使用的编码相同，所以有时候并不是所期望的。

15.5. URL地址

URL地址中含有中文字符是很麻烦的，前面描述过使用GET方法提交表单的情况，使用GET方法时，参数就是包含在URL中。

15.5.1. URL编码

对于URL中的一些特殊字符，浏览器会自动进行编码。这些字符除了"/?&"等外，还包括unicode字符，比如汉子。这时的编码比较特殊。

IE有一个选项"总是使用UTF-8发送URL"，当该选项有效时，IE将会对特殊字符进行UTF-8编码，同时进行URL编码。如果改选项无效，则使用默认编码"GBK"，并且不进行URL编码。但是，对于URL后面的参数，则总是不进行编码，相当于UTF-8选项无效。比如"中文.html?a=中文"，当UTF-8选项有效时，将发送链接"%e4%b8%ad%e6%96%87.html?a=\x4e\x2d\x65\x87"；而UTF-8选项无效时，将发送链接"\x4e\x2d\x65\x87.html?a=\x4e\x2d\x65\x87"。注意后者前面的"中文"两个字只有4个字节，而前者却有18个字节，这主要时URL编码的原因。

当web server（tomcat）接收到该链接时，将会进行URL解码，即去掉"%"，同时按照ISO8859-1编码（上面已经描述，可以使用URLEncoding来设置成其它编码）识别。上述例子的结果分别是"\ue4\ub8\uad\ue6\u96\u87.html?a=\u4e\u2d\u65\u87"和"\u4e\u2d\u65\u87.html?a=\u4e\u2d\u65\u87"，注意前者前面的"中文"两个字恢复成了6个字符。这里用"\u"，表示是unicode。

所以，由于客户端设置的不同，相同的链接，在服务器上得到了不同结果。这个问题不少人都遇到，却没有很好的解决办法。所以有的网站会建议用户尝试关闭UTF-8选项。不过，下面会描述一个更好的处理办法。

15.5.2. rewrite

熟悉的人都知道，apache有一个功能强大的rewrite模块，这里不描述其功能。需要说明的是该模块会自动将URL解码（去除%），即完成上述web server（tomcat）的部分功能。有相关文档介绍说可以使用[NE]参数来关闭该功能，但我试验并未成功，可能是因为版本（我使用的是apache 2.0.54）问题。另外，当参数中含有"?& "等符号的时候，该功能将导致系统得不到正常结果。

rewrite本身似乎完全是采用字节处理的方式，而不考虑字符串的编码，所以不会带来编码问题。

15.5.3. URLEncode.encode()

这是Java本身提供对的URL编码函数，完成的工作和上述UTF-8选项有效时浏览器所做的工作相似。值得说明的是，java已经不赞成不指定编码来使用该方法（deprecated）。应该在使用的时候增加编码指定。

当不指定编码的时候，该方法使用系统默认编码，这会导致软件运行结果得不确定。比如对于"中文"，当系统默认编码为"gb2312"时，结果是"%4e%2d%65%87"，而默认编码为"UTF-8"，结果却是"%e4%b8%ad%e6%96%87"，后续程序将难以处理。另外，这儿说的系统默认编码是由运行tomcat时的环境变量LC_ALL和LANG等决定的，曾经出现过tomcat重启后就出现乱码的问题，最后才郁闷的发现是因为修改修改了这两个环境变量。

建议统一指定为"UTF-8"编码，可能需要修改相应的程序。

15.5.4. 一个解决方案

上面说起过，因为浏览器设置的不同，对于同一个链接，web server收到的是不同内容，而软件系统有无法知道这中间的区别，所以这一协议目前还存在缺陷。

针对具体问题，不应该侥幸认为所有客户的IE设置都是UTF-8有效的，也不应该粗暴的建议用户修改IE设置，要知道，用户不可能去记住每一个web server的设置。所以，接下来的解决办法就只能是让自己的程序多一点智能：根据内容来分析编码是否UTF-8。

比较幸运的是UTF-8编码相当有规律，所以可以通过分析传输过来的链接内容，来判断是否是正确的UTF-8字符，如果是，则以UTF-8处理之，如果不是，则使用客户默认编码（比如"GBK"），下面是一个判断是否UTF-8的例子，如果你了解相应规律，就容易理解。

publicstatic boolean isValidUtf8(byte[] b,int aMaxCount){

int lLen=b.length,lCharCount=0;

for(int i=0;i<lLen && lCharCount<aMaxCount;++lCharCount){

byte lByte=b[i++];//to fast operation, ++ now, ready for the following for(;;)

if(lByte>=0) continue;//>=0 is normal ascii

if(lByte<(byte)0xc0 || lByte>(byte)0xfd) return false;

int lCount=lByte>(byte)0xfc?5:lByte>(byte)0xf8?4

:lByte>(byte)0xf0?3:lByte>(byte)0xe0?2:1;

if(i+lCount>lLen) return false;

for(int j=0;j<lCount;++j,++i) if(b[i]>=(byte)0xc0) return false;

}

return true;

}

相应地，一个使用上述方法的例子如下：

publicstatic String getUrlParam(String aStr,String aDefaultCharset)

throwsUnsupportedEncodingException{

if(aStr==null) return null;

byte[] lBytes=aStr.getBytes("ISO-8859-1");

return new String(lBytes,StringUtil.isValidUtf8(lBytes)?"utf8":aDefaultCharset);

}

不过，该方法也存在缺陷，如下两方面：

l 没有包括对用户默认编码的识别，这可以根据请求信息的语言来判断，但不一定正确，因为我们有时候也会输入一些韩文，或者其他文字。

l 可能会错误判断UTF-8字符，一个例子是"学习"两个字，其GBK编码是" \xd1\xa7\xcf\xb0"，如果使用上述isValidUtf8方法判断，将返回true。可以考虑使用更严格的判断方法，不过估计效果不大。

有一个例子可以证明google也遇到了上述问题，而且也采用了和上述相似的处理方法，比如，如果在地址栏中输入"http://www.google.com/search?hl=zh-CN&newwindow=1&q=学习"，google将无法正确识别，而其他汉字一般能够正常识别。

最后，应该补充说明一下，如果不使用rewrite规则，或者通过表单提交数据，其实并不一定会遇到上述问题，因为这时可以在提交数据时指定希望的编码。另外，中文文件名确实会带来问题，应该谨慎使用。

15.6. 其它

下面描述一些和编码有关的其他问题。

15.6.1. SecureCRT

除了浏览器和控制台与编码有关外，一些客户端也很有关系。比如在使用SecureCRT连接linux时，应该让SecureCRT的显示编码（不同的session，可以有不同的编码设置）和linux的编码环境变量保持一致。否则看到的一些帮助信息，就可能是乱码。

另外，mysql有自己的编码设置，也应该保持和SecureCRT的显示编码一致。否则通过SecureCRT执行sql语句的时候，可能无法处理中文字符，查询结果也会出现乱码。

对于Utf-8文件，很多编辑器（比如记事本）会在文件开头增加三个不可见的标志字节，如果作为mysql的输入文件，则必须要去掉这三个字符。（用linux的vi保存可以去掉这三个字符）。一个有趣的现象是，在中文windows下，创建一个新txt文件，用记事本打开，输入"连通"两个字，保存，再打开，你会发现两个字没了，只留下一个小黑点。

15.6.2. 过滤器

如果需要统一设置编码，则通过filter进行设置是个不错的选择。在filterclass中，可以统一为需要的请求或者回应设置编码。参加上述setCharacterEncoding()。这个类apache已经给出了可以直接使用的例子SetCharacterEncodingFilter。

15.6.3. POST和GET

很明显，以POST提交信息时，URL有更好的可读性，而且可以方便的使用setCharacterEncoding()来处理字符集问题。但GET方法形成的URL能够更容易表达网页的实际内容，也能够用于收藏。

从统一的角度考虑问题，建议采用GET方法，这要求在程序中获得参数是进行特殊处理，而无法使用setCharacterEncoding()的便利，如果不考虑rewrite，就不存在IE的UTF-8问题，可以考虑通过设置URIEncoding来方便获取URL中的参数。

15.6.4. 简繁体编码转换

GBK同时包含简体和繁体编码，也就是说同一个字，由于编码不同，在GBK编码下属于两个字。有时候，为了正确取得完整的结果，应该将繁体和简体进行统一。可以考虑将UTF、GBK中的所有繁体字，转换为相应的简体字，BIG5编码的数据，也应该转化成相应的简体字。当然，仍旧以UTF编码存储。

例如，对于"语言語言"，用UTF表示为"\xE8\xAF\xAD\xE8\xA8\x80\xE8\xAA\x9E\xE8\xA8\x80"，进行简繁体编码转换后应该是两个相同的 "\xE8\xAF\xAD\xE8\xA8\x80>"。

Manufacturer.com刘科垠

2006-3-8

你可能感兴趣的:(http,中文乱码,字符集,java乱码)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【无标题】达瓦达瓦 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
上图为是否色发 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
143234234123432 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
openssl+keepalived安装部署 _小亦_ 项目部署 keepalived openssl
文章目录OpenSSL安装下载地址编译安装修改系统配置版本Keepalived安装下载地址安装遇到问题安装完成配置文件keepalived运行检查运行状态查看系统日志修改服务service重新加载systemd检查配置文件语法错误OpenSSL安装下载地址考虑到后面设备可能没法连接到外网，所以采用安装包的方式进行部署，下载地址：https://www.openssl.org/source/old/
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
「豆包Marscode体验官」 | 云端 IDE 启动 & Rust 体验张风捷特烈 ide rust 开发语言后端
theme:cyanosis我正在参加「豆包MarsCode初体验」征文活动MarsCode可以看作一个运行在服务端的远程VSCode开发环境。对于我这种想要学习体验某些语言，但不想在电脑里装环境的人来说非常友好。本文就来介绍一下在MarsCode里，我的体验rust开发体验。一、MarsCode是什么它的本质是:提供代码助手和云端IDE服务的web网站，可通过下面的链接访问https://www
Some jenkins settings SnC_
Jenkins连接到特定gitlabproject的特定branch我采用的方法是在pipeline的script中使用git命令来指定branch。如下：stage('Clonerepository'){steps{gitbranch:'develop',credentialsId:'gitlab-credential-id',url:'http://gitlab.com/repo.git'}}
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
SpringCloudAlibaba—Sentinel(限流) 菜鸟爪哇
前言：自己在学习过程的记录，借鉴别人文章，记录自己实现的步骤。借鉴文章：https://blog.csdn.net/u014494148/article/details/105484410Sentinel介绍Sentinel诞生于阿里巴巴，其主要目标是流量控制和服务熔断。Sentinel是通过限制并发线程的数量（即信号隔离）来减少不稳定资源的影响，而不是使用线程池，省去了线程切换的性能开销。当资源
光盘文件系统 (iso9660) 格式解析穷人小水滴光盘文件系统 iso9660 deno GNU/Linux javascript
越简单的系统,越可靠,越不容易出问题.光盘文件系统(iso9660)十分简单,只需不到200行代码,即可实现定位读取其中的文件.参考资料:https://wiki.osdev.org/ISO_9660相关文章:《光盘防水嘛?DVD+R刻录光盘泡水实验》https://blog.csdn.net/secext2022/article/details/140583910《光驱的内部结构及日常使用》ht
科幻游戏《外卖员模拟器》主要地理环境设定 (1) 穷人小水滴游戏科幻设计
游戏名称:《外卖员模拟器》(英文名称:waimai_se)作者:穷人小水滴本故事纯属虚构,如有雷同实属巧合.故事发生在一个(架空)平行宇宙的地球,21世纪(超低空科幻流派).相关文章:https://blog.csdn.net/secext2022/article/details/141790630目录1星球整体地理设定2巨蛇国主要设定3海蛇市主要设定3.1主要地标建筑3.2交通3.3能源(电力)
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found