bandaoyu

【字符编码】简洁理解ANSI,UTF8,Unicode,ASCII编码的差别

简略

说明

1. ASCII和ANSI编码

2. UNICODE

4. UTF-8

参考

简略

ASCII 1个字节=1个文字

ANSI 2个字节=1个文字

UNICODE 3个+字节=1个文字 -----压缩---->UTF-8

说明

1. ASCII和ANSI编码

ASCII:单字节内码 -- Single-Byte character sets (SBCS),能够支持256个字符编码. #一个字节表示表示一个字符如 A 只需一个字节
ANSI:双字节内码 -- Double-Byte character sets)(DBCS),能够支持65000个字符编码. #两个个字节表示表示一个字符如你需要两个字节

2. UNICODE

ANSI 两个字节编码，只能表示 65535个字符，全世界的文字字符总和远超这个数（汉语就有５５０００多字符），为了能够容纳全世界全部语言文字的编码，发明了Unicode，每个字符有唯一的编码(数值),可以容纳100多万的字符，
所以需要 3或4个甚至更多字节来表示一个字符。

(参考:https://www.cnblogs.com/kingstarspe/p/ASCII.html)

一个字符就需要3个字节表示，对于英文这样一个只需1个字节就可以表示的，太浪费了，于是需要对UNICODE进行“压缩”编码，于是就有了UTF-8、UTF-16、UTF-32等编码。UTF8编码方式见后文.

4. UTF-8

这是为传输而设计的编码，其系列还有UTF-7和UTF-16
当中UTF-16和Unicode编码大致一样, UTF-8就是以8位为单元对Unicode进行编码。从Unicode到UTF-8的编码方式例如以下：
Unicode编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

总结： ASCII、ANSI、UNICODE 是字符编码，既给全世界每个字符分配一个数值（id），UTF8是传输编码，既将这些数值（id）按规则编码成字节数据。（对方收到UTF8数据后，反过来翻译回UNICODE 是字符编码，就可以显示对应的字符）

参考

UTF8编码方式：

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

下表总结了编码规则，字母x表示可用编码的位。

    Unicode符号范围 | UTF-8编码方式
    (十六进制) | （二进制）
    --------------------+---------------------------------------------
    0000 0000-0000 007F | 0xxxxxxx
    0000 0080-0000 07FF | 110xxxxx 10xxxxxx
    0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
    0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

下面，还是以汉字"严"为例，演示如何实现UTF-8编码。

已知"严"的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800-0000 FFFF），因此"严"的UTF-8编码需要三个字节，即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后，从"严"的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，"严"的UTF-8编码是"11100100 10111000 10100101"，转换成十六进制就是E4B8A5。

1. ASCII和ANSI编码
    字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为
    单字节内码 -- Single-Byte character sets (SBCS),能够支持256个字符编码.
    双字节内码 -- Double-Byte character sets)(DBCS),能够支持65000个字符编码.
前者即为ASCII编码，后者相应ANSI.
至于中文简体编码GB2312，实际上它是ＡＮＳＩ的一个代码页936

2. Unicode
如上，ANSI有非常多代码页，使用不同代码页的内码无法在其它代码也正常显示，这就是为什么日文版／繁体中文版游戏无法在中文简体平台直接显示的原因．
Unicode也是一种字符编码方法，只是它是由国际组织设计，能够容纳全世界全部语言文字的编码方案．它是一种２字节编码，能够提供６５５３６个字符，这个数字是不够表示全部的字符的（汉语就有５５０００多字符），所以，通过一个代理对的机制来实现附加的９１７，４７６个字符表示，以达到全部字符都具有唯一编码．

３．Unicode和BigEndianUnicode
这两者仅仅是存储顺序不同，如＂A＂的unicode编码为65 00
其BigEndianUnicode编码为00 65

4. UTF-8

比如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次取代模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

ANSI：系统预设的标准文字储存格式。ANSI是American National Standards Institute的缩写。它成立于1918年，是一个自愿性的组织，拥有超过1300个会员，包含全部大型的电脑公司。ANSI专为电脑工业建立标准，它是世界上相当重要的标准。

Unicode：世界上全部主要指令文件的联集，包含商业和个人电脑所使用的公用字集。当採用Unicode格式储存文件时，可使用Unicode控制字符辅助说明语言的文字覆盖范围，如阿拉伯语、希伯来语。用户在“记事本”中输入含有Unicode字符的文字并储存文件时，系统会提示你必须选取“另存为”中的Unicode编码，这些字符才不会被遗失。须要提醒大家的是，部分Windows 2000字型无法显示全部的Unicode字符。假设发现文件里缺少了某些字符，仅仅需将其变更为其他字型就可以。

Unicode big endian：在Big-endian处理器（如苹果Macintosh电脑）上建立的Unicode文件里的文字位元组（存放单位）排列顺序，与在Intel处理器上建立的文件的文字位元组排列顺序相反。最重要的位元组拥有最低的地址，且会先储存文字中较大的一端。为使这类电脑的用户可以存取你的文件，可选择Unicode big-endian格式。

UTF-8：UTF意为通用字集转换格式(Universal Character Set Transformation Format)，UTF-8是Unicode的8位元格式。假设使用仅仅能在同类位元组内支持8个位元的重要资料一类的旧式传输媒体，可选择UTF-8格式。

Unicode是一种字符编码规范。

先从ASCII说起。ASCII是用来表示英文字符的一种编码规范，每一个ASCII字符占用1个字节（8bits）

因此，ASCII编码能够表示的最大字符数是256，事实上英文字符并没有那么多，一般仅仅用前128个（最高位为0），当中包含了控制字符、数字、大写和小写字母和其它一些符号
。

而最高位为1的另128个字符被成为“扩展ASCII”，一般用来存放英文的制表符、部分音标字符等等的一些其它符号

这样的字符编码规范显然用来处理英文没有什么问题
。（实际上也能够用来处理法文、德文等一些其它的西欧字符，可是不能和英文通用），可是面对中文、阿拉伯文之类复杂的文字，255个字符显然不够用

于是，各个国家纷纷制定了自己的文字编码规范，当中中文的文字编码规范叫做“GB2312-80”，它是和ASCII兼容的一种编码规范，事实上就是利用扩展ASCII没有真正标准化这一点，把一个中文字符用两个扩展ASCII字符来表示。

可是这种方法有问题，最大的问题就是，中文文字没有真正属于自己的编码，由于扩展ASCII码尽管没有真正的标准化，可是PC里的ASCII码还是有一个事实标准的（存放着英文制表符），所以非常多软件利用这些符号来画表格。这样的软件用到中文系统中，这些表格符就会被误认作中文字，破坏版面。并且，统计中英文混合字符串中的字数，也是比較复杂的，我们必须推断一个ASCII码是否扩展，以及它的下一个ASCII是否扩展，然后才“猜”那可能是一个中文字
。

总之当时处理中文是非常痛苦的。而更痛苦的是GB2312是国家标准，台湾当时有一个Big5编码标准，非常多编码和GB是同样的，所以……，嘿嘿。

这时候，我们就知道，要真正解决中文问题，不能从扩展ASCII的角度入手，也不能仅靠中国一家来解决。而必须有一个全新的编码系统，这个系统要能够将中文、英文、法文、德文……等等全部的文字统一起来考虑，为每一个文字都分配一个单独的编码，这样才不会有上面那种现象出现。

于是，Unicode诞生了。

Unicode有两套标准，一套叫UCS-2(Unicode-16)，用2个字节为字符编码，还有一套叫UCS-4(Unicode-32)，用4个字节为字符编码。

以眼下经常使用的UCS-2为例，它能够表示的字符数为2^16=65535，基本上能够容纳全部的欧美字符和绝大部分的亚洲字符
。

UTF-8的问题后面会提到。

在Unicode里，全部的字符被一视同仁。汉字不再使用“两个扩展ASCII”，而是使用“1个Unicode”，注意，如今的汉字是“一个字符”了，于是，拆字、统计字数这些问题也就自然而然的攻克了
。

可是，这个世界不是理想的，不可能在一夜之间全部的系统都使用Unicode来处理字符，所以Unicode在诞生之日，就必须考虑一个严峻的问题：和ASCII字符集之间的不兼容问题。

我们知道，ASCII字符是单个字节的，比方“A”的ASCII是65。而Unicode是双字节的，比方“A”的Unicode是0065，这就造成了一个非常大的问题：以前处理ASCII的那套机制不能被用来处理Unicode了
。

还有一个更加严重的问题是，C语言使用'/0'作为字符串结尾，而Unicode里恰恰有非常多字符都有一个字节为0，这样一来，C语言的字符串函数将无法正常处理Unicode，除非把世界上全部用C写的程序以及他们所用的函数库全部换掉
。

于是，比Unicode更伟大的东东诞生了，之所以说它更伟大是由于它让Unicode不再存在于纸上，而是真实的存在于我们大家的电脑中。那就是：UTF
。

UTF= UCS Transformation Format UCS转换格式

它是将Unicode编码规则和计算机的实际编码相应起来的一个规则。如今流行的UTF有2种：UTF-8和UTF-16
。

当中UTF-16和上面提到的Unicode本身的编码规范是一致的，这里不多说了。而UTF-8不同，它定义了一种“区间规则”，这样的规则能够和ASCII编码保持最大程度的兼容
。

UTF-8有点相似于Haffman编码，它将Unicode编码为00000000-0000007F的字符，用单个字节来表示；

00000080-000007FF的字符用两个字节表示

00000800-0000FFFF的字符用3字节表示

由于眼下为止Unicode-16规范没有指定FFFF以上的字符，所以UTF-8最多是使用3个字节来表示一个字符。但理论上来说，UTF-8最多须要用6字节表示一个字符。

在UTF-8里，英文字符仍然跟ASCII编码一样，因此原先的函数库能够继续使用。而中文的编码范围是在0080-07FF之间，因此是2个字节表示（但这两个字节和GB编码的两个字节是不同的），用专门的Unicode处理类能够对UTF编码进行处理。

以下说说中文的问题。

由于历史的原因，在Unicode之前，一共存在过3套中文编码标准。

GB2312-80，是中国大陆使用的国家标准，当中一共编码了6763个经常使用简体汉字。Big5，是台湾使用的编码标准，编码了台湾使用的繁体汉字，大概有8千多个。HKSCS，是中国香港使用的编码标准，字体也是繁体，但跟Big5有所不同。

这3套编码标准都採用了两个扩展ASCII的方法，因此，几套编码互不兼容，并且编码区间也各有不同

由于其不兼容性，在同一个系统中同一时候显示GB和Big5基本上是不可能的。当时的南极星、RichWin等等软件，在自己主动识别中文编码、自己主动显示正确编码方面都做了非常多努力
。

他们用了如何的技术我就不得而知了，我知道好像南极星以前以同屏显示繁简中文为卖点。

后来，由于各方面的原因，国际上又制定了针对中文的统一字符集GBK和GB18030，当中GBK已经在Windows、Linux等多种操作系统中被实现。

GBK兼容GB2312，并添加了大量不经常使用汉字，还添加了差点儿全部的Big5中的繁体汉字。可是GBK中的繁体汉字和Big5中的差点儿不兼容。

GB18030相当于是GBK的超集，比GBK包含的字符很多其它。据我所知眼下还没有操作系统直接支持GB18030。

谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词
这是一篇程序猿写给程序猿的趣味读物。所谓趣味是指能够比較轻松地了解一些原来不清楚的概念，增进知识，相似于打RPG游戏的升级。整理这篇文章的动机是两个问题：

问题一：
使用Windows记事本的“另存为”，能够在GBK、Unicode、Unicode big
endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是如何识别编码方式的呢？

我非常早前就发现Unicode、Unicode big
endian和UTF-8编码的txt文件的开头会多出几个字节，各自是FF、FE（Unicode）,FE、FF（Unicode big
endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？

问题二：
近期在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式，我原来就了解。但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。
查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节。写成一篇文章，送给有过相似疑问的朋友。本文在写作时尽量做到通俗易懂，但要求读者知道什么是字节，什么是十六进制。

0、big endian和little endian
big endian和little
endian是CPU处理多字节数的不同方式。比如“汉”字的Unicode编码是6C49。那么写到文件中时，到底是将6C写在前面，还是将49写在前面？假设将6C写在前面，就是big
endian。还是将49写在前面，就是little endian。

“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是到底从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，当中一个皇帝送了命，还有一个丢了王位。

我们一般将endian翻译成“字节序”，将big endian和little
endian称作“大尾”和“小尾”。

1、字符编码、内码，顺带介绍汉字编码
字符必须编码后才干被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序猿设计了用于中文简体的GB2312和用于繁体中文的big5。

GB2312(1980年)一共收录了7445个字符，包含6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。当中有5个空位是D7FA-D7FE。

GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包含21003个字符。2000年的GB18030是代替GBK1.0的正式国家标准。该标准收录了27484个汉字，同一时候还收录了藏文、蒙文、维吾尔文等基本的少数民族文字。如今的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般仅仅支持GB2312。

从ASCII、GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有同样的编码，后面的标准支持很多其它的字符。在这些编码中，英文和中文能够统一地处理。区分中文编码的方法是高字节的最高位不为0。依照程序猿的称呼，GB2312、GBK到GB18030都属于双字节字符集
(DBCS)。

有的中文Windows的缺省内码还是GBK，能够通过GB18030升级包升级到GB18030。只是GB18030相对GBK添加的字符，普通人是非常难用到的，通常我们还是用GBK指代中文Windows内码。

这里还有一些细节：

GB2312的原文还是区位码，从区位码到内码，须要在高字节和低字节上分别加上A0。

在DBCS中，GB内码的存储格式始终是big endian，即高位在前。

GB2312的两个字节的最高位都是1。但符合这个条件的码位仅仅有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。只是这不影响DBCS字符流的解析：在读取DBCS字符流时，仅仅要遇到高位为1的字节，就能够将下两个字节作为一个双字节编码，而不用管低字节的高位是什么。

2、Unicode、UCS和UTF
前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode仅仅与ASCII兼容（更准确地说，是与ISO-8859-1兼容），与GB码不兼容。比如“汉”字的Unicode编码是6C49，而GB码是BABA。

Unicode也是一种字符编码方法，只是它是由国际组织设计，能够容纳全世界全部语言文字的编码方案。Unicode的学名是"Universal
Multiple-Octet Coded Character Set"，简称为UCS。UCS能够看作是"Unicode
Character Set"的缩写。

依据维基百科全书(http://zh.wikipedia.org/wiki/)的记载：历史上存在两个试图独立设计Unicode的组织，即国际标准化组织（ISO）和一个软件制造商的协会（unicode.org）。ISO开发了ISO
10646项目，Unicode协会开发了Unicode项目。

在1991年前后，两方都认识到世界不须要两个不兼容的字符集。于是它们開始合并两方的工作成果，并为创立一个单一编码表而协同工作。从Unicode2.0開始，Unicode项目採用了与ISO
10646-1同样的字库和字码。

眼下两个项目仍都存在，并独立地发布各自的标准。Unicode协会如今的最新版本号是2005年的Unicode
4.1.0。ISO的最新标准是10646-3:2003。

UCS规定了怎么用多个字节表示各种文字。如何传输这些编码，是由UTF(UCS
Transformation Format)规范规定的，常见的UTF规范包含UTF-8、UTF-7、UTF-16。

IETF的RFC2781和RFC3629以RFC的一贯风格，清楚、明快又不失严谨地描写叙述了UTF-16和UTF-8的编码方法。我总是记不得IETF是Internet
Engineering Task
Force的缩写。但IETF负责维护的RFC是Internet上一切规范的基础。

3、UCS-2、UCS-4、BMP

UCS有两种格式：UCS-2和UCS-4。顾名思义，UCS-2就是用两个字节编码，UCS-4就是用4个字节（实际上仅仅用了31位，最高位必须为0）编码。以下让我们做一些简单的数学游戏：

UCS-2有2^16=65536个码位，UCS-4有2^31=2147483648个码位。

UCS-4依据最高位为0的最高字节分成2^7=128个group。每一个group再依据次高字节分为256个plane。每一个plane依据第3个字节分为256行
(rows)，每行包含256个cells。当然同一行的cells仅仅是最后一个字节不同，其余都同样。

group 0的plane 0被称作Basic Multilingual Plane,
即BMP。或者说UCS-4中，高两个字节为0的码位被称作BMP。

将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。在UCS-2的两个字节前加上两个零字节，就得到了UCS-4的BMP。而眼下的UCS-4规范中还没有不论什么字符被分配在BMP之外。

4、UTF编码

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式例如以下：

UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

比如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx
10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，
用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

读者能够用记事本測试一下我们的编码是否正确。

UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码，UTF-16编码就等于UCS码相应的16位无符号整数。对于不小于0x10000的UCS码，定义了一个算法。只是由于实际使用的UCS2，或者UCS4的BMP必定小于0x10000，所以就眼下而言，能够觉得UTF-16和UCS-2基本同样。但UCS-2仅仅是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题。

5、UTF的字节序和BOM
UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每一个编码单元的字节序。比如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。假设我们收到UTF-16字节流“594E”，那么这是“奎”还是“乙”？

Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of
Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：

在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK
SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出如今实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO
WIDTH NO-BREAK SPACE"。

这样假设接收者收到FEFF，就表明这个字节流是Big-Endian的；假设收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO
WIDTH NO-BREAK SPACE"又被称作BOM。

UTF-8不须要BOM来表明字节顺序，但能够用BOM来表明编码方式。字符"ZERO
WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB
BF（读者能够用我们前面介绍的编码方法验证一下）。所以假设接收者收到以EF BB
BF开头的字节流，就知道这是UTF-8编码了。

Windows就是使用BOM来标记文本文件的编码方式的。

系统支持
Windows 98 ：仅仅支持ANSI。
Windows 2k ：既支持ANSI又支持UNICODE。
Windows CE ：仅仅支持UNICODE。

Windows 2000整个OS系统都是基于UNICODE的，为此在windows 2000下使用ANSI是须要付出代价的，尽管在编码上不用不论什么的转换，可是这样的转化是隐藏的，是占用系统资源的（CPU，内存）。

在Windows 98下必须使用UNICODE，则须要自己手动的编码切换。

在计算机中字符通常并非保存为图像，每一个字符都是使用一个编码来表示的，而每一个字符到底使用哪个编码代表，要取决于使用哪个字符集(charset)。

在最初的时候，Internet上仅仅有一种字符集——ANSI的ASCII字符集，它使用7 bits来表示一个字符，总共表示128个字符，当中包含了英文字母、数字、标点符号等经常使用字符。之后，又进行扩展，使用8 bits表示一个字符，能够表示256个字符，主要在原来的7 bits字符集的基础上增加了一些特殊符号比如制表符。

后来，因为各国语言的增加，ASCII已经不能满足信息交流的须要，因此，为了能够表示其他国家的文字，各国在ASCII的基础上制定了自己的字符集，这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集，它们正式的名称应该是MBCS(Multi-Byte Chactacter System，即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础，兼容ASCII 127，他们使用大于128的编码作为一个Leading Byte，紧跟在Leading Byte后的第二（甚至第三）个字符与Leading Byte一起作为实际的编码。这样的字符集有非常多，我们常见的GB-2312就是当中之中的一个。

比如在GB-2312字符集中，“连通”的编码为C1 AC CD A8，当中C1和CD就是Leading Byte。前127个编码为标准ASCII保留，比如“0”的编码是30H（30H表示十六进制的30）。软件在读取时，假设看到30H，知道它小于128就是标准ASCII，表示“0”，看到C1大于128就知道它后面有一个另外的编码，因此C1 AC一同构成一个整个的编码，在GB-2312字符集中表示“连”。

因为每种语言都制定了自己的字符集，导致最后存在的各种字符集实在太多，在国际交流中要经常转换字符集非常不便。因此，提出了Unicode字符集，它固定使用16 bits（两个字节、一个字）来表示一个字符，共能够表示65536个字符。将世界上差点儿全部语言的经常使用字符收录当中，方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8，使用相似MBCS的方式对Unicode进行编码。注意UTF-8是编码，它属于Unicode字符集。Unicode字符集有多种编码形式，而ASCII仅仅有一种，大多数MBCS（包含GB-2312）也仅仅有一种。

比如“连通”两个字的Unicode标准编码UTF-16 (big endian）为：DE 8F 1A 90
而其UTF-8编码为：E8 BF 9E E9 80 9A

最后，当一个软件打开一个文本时，它要做的第一件事是决定这个文本到底是使用哪种字符集的哪种编码保存的。软件有三种途径来决定文本的字符集和编码：

最标准的途径是检測文本最开头的几个字节，例如以下表：

开头字节 Charset/encoding
EF BB BF UTF-8
FE FF UTF-16/UCS-2, little endian
FF FE UTF-16/UCS-2, big endian
FF FE 00 00 UTF-32/UCS-4, little endian.
00 00 FE FF UTF-32/UCS-4, big-endian.

比如插入标记后，连通”两个字的UTF-16 (big endian）和UTF-8码分别为：
FF FE DE 8F 1A 90
EF BB BF E8 BF 9E E9 80 9A

可是MBCS文本没有这些位于开头的字符集标记，更不幸的是，一些早期的和一些设计不良的软件在保存Unicode文本时不插入这些位于开头的字符集标记。因此，软件不能依赖于这样的途径。这时，软件能够採取一种比較安全的方式来决定字符集及其编码，那就是弹出一个对话框来请示用户，比如将那个“连通”文件拖到MS Word中，Word就会弹出一个对话框。

假设软件不想麻烦用户，或者它不方便向用户请示，那它仅仅能採取自己“猜”的方法，软件能够依据整个文本的特征来推測它可能属于哪个charset，这就非常可能不准了。使用记事本打开那个“连通”文件就属于这样的情况。

我们能够证明这一点：在记事本中键入“连通”后，选择“Save As”，会看到最后一个下拉框中显示有“ANSI”，这时保存。当再当打开“连通”文件出现乱码后，再点击“File”->“Save As”，会看到最后一个下拉框中显示有“UTF-8”，这说明记事本觉得当前打开的这个文本是一个UTF-8编码的文本。而我们刚才保存时是用ANSI字符集保存的。这说明，记事本推測了“连通”文件的字符集，觉得它更像一个UTF-8编码文本。这是因为“连通”两个字的GB-2312编码看起来更像UTF-8编码导致的，这是一个巧合，不是全部文字都这样。能够使用记事本的打开功能，在打开“连通”文件时在最后一个下拉框中选择ANSI，就能正常显示了。反过来，假设之前保存时保存为UTF-8编码，则直接打开也不会出现故障。

假设将“连通”文件放入MS Word中，Word也会觉得它是一个UTF-8编码的文件，但它不能确定，因此会弹出一个对话框询问用户，这时选择“中文简体（GB2312）”，就能正常打开了。记事本在这一点上做得比較简化罢了，这与这个程序的定位是一致的。

你可能感兴趣的:(扩展知识,汉字编码,乱码)

高级交换与路由技术【1.1】 BinaryStarXin 网络工程师提升计划3 网络工程师提升计划4 网络服务器 linux 运维多生成树协议 MSTP 信息与通信网络协议
1.3扩展知识1．保护端口（ProtectedPort）概述在某些应用环境下，要求一台交换机上的有些端口之间不能互相通信。在这种环境下，通过设置保护口（ProtectedPort）实现这些端口之间拒绝单播帧、多播帧、广播帧的链路层通信，这些端口之间只有通过三层设备进行通信。保护端口之间无法通信，保护端口与非保护端口之间可以通信，如图1.3所示。只能实现同一台交换机的相同VLAN内的端口链路层通信隔
Linux下文件名中文乱码导致无法访问的问题解决方法无级程序员 linux 文件名乱码
一个基于openwrt路由器做文件服务器，硬盘里面有些文件的中文名乱码了，导致无法打开，也无法复制，想改名也无法操作，怎么办呢，网上搜了一大圈，都是说如何转换乱码，但文件都无法访问了，怎么转换？比如其中一个文件名是：“IVItripsummaryV1.0❁´◡`❁.xlsx"，我试着如下命令发现能唯一的找到它：ls"IVItripsummaryV1.0"*于是，试着改名：mv"IVItripsum
Qt for WebAssembly程序中文乱码问题处理过程 muren Qt c++qt wasm 开发语言
一、环境操作系统DeepinV23Qt版本6.8.2编程语言C++二、问题现象QtforWebAssembly应用在浏览器页面上英文字母显示正常，中文显示为乱码。经测试分析原因为默认字体不能正常显示汉字。三、处理过程1.准备中文字体文件从Windows下复制宋体简体字体文件。C:\Windows\Fonts\simsun.ttc2.添加资源文件resources.qrcsimsun.ttc3.Qt
[解决] PDF转图片,中文乱码或显示方框的解决方案 DazedMen 开发遇到的问题 pdf java pdf转图片
在Java开发中，将PDF文件转换为图片是一项常见的需求，但过程中可能会遇到中文乱码或显示方框的问题。本文将深入探讨这一问题，并提供详细的解决方案，帮助开发者顺利地完成PDF到图片的转换。一、问题现象在使用Java库（如ApachePDFBox）将PDF转换为图片时，如果PDF文件中包含中文字符，转换后的图片中可能会出现中文乱码或显示为方框的情况。控制台日志可能会显示类似以下信息：noglyphf
编译时报错“LNK2019 无法解析的外部符号”的可能原因及其解决办法烟锁池塘柳0 程序设计与编程语言 c++
在VS2022中运行C++程序的时候，有时候会遇到这样的问题：1>（源文件名称）.obj:errorLNK2019:无法解析的外部符号"public:__cdecl（函数名(参数列表)）"(??0（函数名与乱码）@@QEAA@XZ)，函数main中引用了该符号1>项目路径\x64\Debug\可执行程序名.exe:fatalerrorLNK1120:1个无法解析的外部命令遇到这种问题，可以说是很难
cocos2dx : 解决中文乱码问题 ^随风~~ Cocos2d-x C++乱码
在使用cocos2dx的时候，代码里面使用了中文或者是在cocosstudio编辑器里面使用了中文，显示的时候会出现乱码问题，下面提供几个解决方案：方案一：最前面加上命令:#pragmaexecution_character_set("utf-8")方案二：使用XML文件：问题与解决方法在windows环境下使用visualstudio开发cocos2d-x，由于visualstudio默认编码为
Python 常用内建模块-base64 赔罪 Python 系统学习 python 前端 linux
目录base64小结练习base64Base64是一种用64个字符来表示任意二进制数据的方法。用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。Base64的原理很简单，首先，准备一个包含64个字符的数
Python 中的特殊注释及字符存储机制 svtvtvt python 开发语言 pycharm 数据结构
目录一、Python特殊注释及其作用1.'#!/usr/bin/python'（Shebang2.'#-*-coding:utf-8-*-'（字符编码声明）3.其他特殊注释二、Python中字符的存储机制1.计算机的最小存储单元2.常见字符编码方案3.Python中字符的存储三、中文乱码的原因及解决方法1.源文件的编码与Python的编码不一致2.编码与解码不一致3.终端或控制台编码问题4.操作系
Xshell7连接Debian12系统，中文显示乱码，解决办法一览！ linuxdebian
在使用Xshell7远程连接Debian12时出现中文显示乱码问题，通常是由于字符编码或字体设置不匹配导致的。以下是详细的解决方法：解决方案1：设置Xshell编码为UTF-8打开Xshell会话配置：连接Debian12系统后，点击左侧面板的会话树状结构（如SessionList），右键点击当前会话，选择Properties（属性）。修改字符编码：进入Terminal选项卡。在Character
python的导包使用 power_kai python
1、查看文件的创建时间importtimeimportosprint（time.localtime(os.path.getatime('E:\\a.txt'))）2、查看文件的修改时间print（time.localtime(os.path.getmtime('E:\\a.txt'))）3、pickle数据转换模块,这个写入的文件是一个二进制文件，普通文本编辑器打开是乱码importpickle#
csv转为utf8编码_中文的csv文件的编码改成utf8的方法 John Sheppard csv转为utf8编码
直奔主题：把包含中文的csv文件的编码改成utf-8的方法：啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa3inposition12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则
MySQL 5.7 vs MySQL 8.0 高频面试题解析 dblens 数据库管理和开发工具 mysql 数据库
一、基础概念与核心差异1.默认字符集的变化问：MySQL5.7和8.0的默认字符集有何不同？为什么要修改？答：MySQL5.7默认字符集为latin1，可能导致中文乱码。MySQL8.0默认改为utf8mb4（支持4字节编码，如表情符号），且默认排序规则为utf8mb4_0900_ai_ci。意义：彻底解决字符编码问题，兼容国际化需求。2.用户认证方式的演进问：从5.7到8.0，用户密码认证方式有
SpringMVC @RequestHeader @CookieValue 处理获取请求参数的乱码问题杨宸杨 SpringMVC java jvm 数据库
SpringMVC@RequestHeader@CookieValue处理获取请求参数的乱码问题@RequestHeader@CookieValue什么是cookie通过POJO获取请求参数通过CharacterEncodingFilter处理获取请求参数的乱码问题get请求的乱码post请求乱码处理获取请求参数的乱码问题)@RequestHeader1.@RequestHeader是将请求头信息
解决 HTTP 请求中的编码问题：从乱码到正确传输和烨 Java进阶学习专栏 http 网络协议网络
文章目录解决HTTP请求中的编码问题：从乱码到正确传输1.**问题背景**2.**乱码问题的原因**2.1**客户端编码问题**2.2**请求头缺失**2.3**服务器编码问题**3.**解决方案**3.1**明确指定请求体编码**3.2**确保请求头正确**3.3**动态获取响应编码**4.**调试与验证**4.1**打印请求数据**4.2**使用抓包工具**4.3**查看服务器日志**5.**
字符流在处理不同编码文件时的工作原理啊sen丶 java 开发语言
在Java中，字符流是专门用于处理文本数据的IO流，它基于字符（char）操作，能够自动处理字符编码的转换。字符流的核心在于它可以根据指定的字符集（如UTF-8、GBK、ISO-8859-1等）将字节数据解码为字符数据，或者将字符数据编码为字节数据。这种机制使得字符流在处理不同编码的文件时非常灵活，能够有效避免因编码不一致导致的乱码问题。一、字符流的工作原理字符流在内部使用Charset（字符集）
运维系列&Linux系列：Ubuntu安装登录lftp，并下载文件坦笑&&life 运维运维 linux ubuntu
Ubuntu安装登录lftp，并下载文件Ubuntu安装登录lftp，并下载文件1.安装2.lftp连接此步骤可能报错：（1）ls:Fatalerror:Certificateverification:Nottrusted(1E:91:90:86:47:16:96:7D:12:C4:AC:3F:0F:04:98:C2:3C:78:A5:0C)（2）ls出现乱码3.cd到待下载的目录下Ubuntu安
php中文乱码问号,如何解决PHP中文乱码问题？ Helios-Yang php中文乱码问号
作为该国家/区域内信息处理的基础，字符编码集起着统一编码的重要作用。字符编码集按长度分为SBCS(单字节字符集)，DBCS(双字节字符集)两大类。早期的软件(尤其是操作系统)，为了解决本地字符信息的计算机处理，出现了各种本地化版本(L10N)，为了区分，引进了LANG，Codepage等概念。但是由于各个本地字符集代码范围重叠，相互间信息交换困难;软件各个本地化版本独立维护成本较高。因此有必要将本
php中文乱码无法解决_PHP基础|如何解决中文乱码问题？梦里一只喵 php中文乱码无法解决
为什么会出现中文乱码?很多新手朋友学习PHP的时候，发现程序中的中文在输出的时候会出现乱码的问题，那么为什么会出现这种乱码的情况呢?一般来说，乱码的出现有2种原因，一种是由于编码(charset)设置错误，导致浏览器以错误的编码来解析，从而出现了满屏乱七八糟的“天书”，第二种就是文件被以错误的编码打开，然后保存，比如一个文本文件原先是GB2312编码的，却以UTF-8编码打开再保存，就会出现乱码的
PHP 处理csv 文件解决中文乱码 MountainYanYL PHP csv php
/***读取csv格式的数据*@param$file*@returnarray*/publicstaticfunctionread_csv($file){setlocale(LC_ALL,'zh_CN');//linux系统下生效$data=[];//返回的文件数据行if(!is_file($file)&&!file_exists($file)){return$data;}$cvs_file=fo
解决PHP中文乱码问题 UqConstruction php android oracle
在PHP开发中，中文乱码是一个常见的问题。当我们在处理中文字符时，有时会遇到显示不正常的情况，这就是中文乱码。本文将介绍一些常见的方法来解决PHP中文乱码问题。设置字符编码PHP中文乱码问题的根本原因是字符编码不匹配。为了正确显示中文字符，我们需要确保在所有的环节中使用相同的字符编码。常见的字符编码包括UTF-8、GBK等。首先，在PHP文件的开头添加以下代码，将文件的字符编码设置为UTF-8：h
如何处理PHP中的编码问题奥顺互联V php php android 开发语言
如何处理PHP中的编码问题在PHP开发过程中，编码问题是一个常见且棘手的问题。无论是处理用户输入、数据库交互，还是与外部API通信，编码问题都可能导致数据乱码、解析错误甚至安全漏洞。本文将深入探讨PHP中的编码问题，并提供一些实用的解决方案。1.理解字符编码字符编码是计算机中表示字符的方式。常见的字符编码包括ASCII、UTF-8、GBK等。UTF-8是一种变长的Unicode编码，能够表示世界上
软件测试之测试用例详细解读隐居人家的炊烟测试用例软件测试自动化测试
一、通用测试用例八要素1、用例编号；2、测试项目；3、测试标题；4、重要级别；5、预置条件；6、测试输入；7、操作步骤；8、预期输出二、具体分析通用测试用例八要素1、用例编号一般是数字和字符组合成的字符串，可以包括（下划线、单词缩写、数字等等），但是需要注意的是，尽量不要写汉语拼音，因为拼音的意义可能有好几种，有可能会导致乱码；用例编号具有唯一性和易识别性。（比如说我们唯一标识一个人：中国-上海市
解决Windows平台下 Visual Studio 中文显示乱码问题人生三渡 Visual Studio visual studio 代码规范预编码
目录常用编码格式介绍中文乱码的原因中文乱码的解决方式下载VisualStudio的扩展插件验证是否乱码问题是否解决常用编码格式介绍我们一般常用的就以下几种编码格式：GBK，UTF-8以及Unicode等。GBK：是一种汉字编码规范，它扩展了GB2312编码标准，增加了更多的汉字和符号。GBK详解UTF-8：是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符，而
探究Visual Studio中的乱码问题 L-Super 杂记 visual studio ide
关于乱码，没遇到皆大欢喜，遇到了头痛不已。在VisualStudio中程序遇到乱码，需要明确三个概念，那么问题就好解决了。三个字符集概念源码字符集MSVC中/source-charset即源代码文本文件的字符集，NodePad++、记事本、VSCode这样类似的文本编辑器，可以打开源文件看一下你的字符集（文件编码）。源代码文本文件是以二进制的形式存在硬盘里的，无论中文英文都一样，当你输入一个汉字后
安装并配置终端字体獨梟全面配置 linux 运维服务器
1.简介在使用OhMyZsh+Powerlevel10k时，正确的字体配置至关重要。Powerlevel10k依赖NerdFonts扩展字体，以正确显示Git状态、分支、时间、图标等信息。如果没有正确配置字体，你可能会看到乱码、问号（?）、方块（□）或缺失的Powerlevel10k图标。本指南将介绍如何安装和配置终端字体，适用于Linux（Ubuntu、CentOS、Arch）、macOS、Wi
SpringBoot设置过滤器（Filter）或拦截器（Interceptor）的执行顺序：@Order注解、setOrder()方法 pan_junbiao Spring Spring Boot 我の原创 spring boot java 后端
JavaWeb过滤器、拦截器、监听器，系列文章：（1）过滤器（Filter）的使用：《Servlet过滤器（Filter）的使用：Filter接口、@WebFilter注释》《SpringMVC使用过滤器（Filter）解决中文乱码》《SpringBoot过滤器（Filter）的使用：Filter接口、FilterRegistrationBean类配置、@WebFilter注释》《SpringBo
解决问题：Android Studio启动不了 piggy514 android studio android ide
1、启动不了之前的操作：build报错的提示的都是乱码，于是网上搜了下，去菜单Help>EditCustomVMoptions此时AS打开了AS安装目录下bin/studio64.exe.vmoptions这个文件根据网上说法在里边加一句-Dfile.encoding=UTF-8即可，于是加了，结果AS闪退。再也启动不了，重启电脑后也不行，重新安装也不行。看来有时不要轻信网上操作。怎么解决乱码问题
node建立博客系统遇到的问题，1，乱码。2，multer的使用错误。3使用session问题... weixin_33901926 python
2019独角兽企业重金招聘Python工程师标准>>>1，乱码文件存储为utf-8格式后还是报错。原来这个设置只对新建文件编码有效，旧文件不处理的，我还以为旧文件也给转换了。2，上传文件的multer模块使用错误。throw new TypeError('app.use() requires middleware functions');这里是multer的版本错误。可以使用如下代码解决问题//
编程语言乱码问题（以Visual Studio Code为例）博客路人甲 vscode ide visual studio code
在很多时候，我们在写代码或者运行代码时会遇到乱码问题，有时候是因为我们系统本身编码问题，这时候需要我们在“设置”->“时间与日期”中设置语言编码格式；但更多的时候是因为我们脚本文件编码的问题。当我们脚本文件编码出了问题后，我们的编辑窗口以及输出窗口都会遇到乱码问题，这时候就需要我们修改文件编码。1.当编辑窗口出现乱码时，我们需要重新以另一种编码格式打开文件。以vscode为例右下角有一个编码格式，
JavaEE 项目常见错误解决方案一弦一柱 JavaEE 常见错误中文乱码 JSP 404
JavaEE项目常见错误解决方案数据库连接JavaBean获取不到数据库字段值或出现意料之外的值业务中出现null或""404NOTFOUNDGET请求中文乱码form表单提交中文乱码最近的实训中，练了一个比较基础的项目，JSP+Servlet+JavaBean，完成两张表的CRUD操作，前端使用Bootstrap和JQuery，交互使用AJAX，IDE选用Eclipse,在时间比较仓促的情况下完
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

【字符编码】 简洁理解ANSI,UTF8,Unicode,ASCII编码的差别

简略

说明

1. ASCII和ANSI编码

2. UNICODE

4. UTF-8

参考

你可能感兴趣的:(扩展知识,汉字编码,乱码)

【字符编码】简洁理解ANSI,UTF8,Unicode,ASCII编码的差别