llyzq

字符编码详解——彻底理解掌握编码知识，“乱码”不复存在

摘自 <http://polaris1119.iteye.com/blog/739410> 每一个程序员都不可避免的遇到字符编码的问题，特别是做Web开发的程序员，“乱码问题”一直是让人头疼的问题，也许您已经很少遇到“乱码”问题，然而，对解决乱码的方法的内在原理，您是否明白？本人作为一个程序员，在字符编码方面同样遇到不少问题，而且一直对各种编码懵懵懂懂、不清不楚；在工作中也曾经遇到一个很烦人的编码问题。这两天在网上收集了大量编码方面的资料，对字符编码算是理解的比较清楚了。下面把我认为比较重要的知识点记录下来，一方面方便以后复习；另一方面也希望给跟我一样懵懵懂懂的人一个参考。不对或不妥之处，请批评指正。

在此之前，先了解一些有用概念：“字符集”、“字符编码”和“内码”。

1、字符集与字符编码

字符是各种文字和符号的总称，包括各个国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同，常见字符集有：ASCII字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字，需要进行字符编码，以便计算机能够识别和存储各种文字。

编码(encoding)和字符集不同。字符集只是字符的集合，不一定适合作网络传送、处理，有时须经编码(encode)后才能应用。如Unicode可依不同需要以UTF-8、UTF-16、UTF-32等方式编码。

字符编码就是以二进制的数字来对应字符集的字符。

因此，对字符进行编码，是信息交流的技术基础。

使用哪些字符。也就是说哪些汉字，字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。

规定每个“字符”分别用一个字节还是多个字节存储，用哪些字节来存储，这个规定就叫做“编码”。

各个国家和地区在制定编码标准的时候，“字符的集合”和“编码”一般都是同时制定的。因此，平常我们所说的“字符集”，比如：GB2312, GBK, JIS 等，除了有“字符的集合”这层含义外，同时也包含了“编码”的含义。

注意：Unicode字符集有多种编码方式，如UTF-8、UTF-16等；ASCII只有一种；大多数MBCS（包括GB2312）也只有一种。

2、什么是内码？

2.1 维基百科的解释

在计算机科学及相关领域当中，内码指的是“将资讯编码后，透过某种方式储存在特定记忆装置时，装置内部的编码形式”。在不同的系统中，会有不同的内码。

在以往的英文系统中，内码为ASCII。在繁体中文系统中，目前常用的内码为大五码（Big5）。在简体中文系统中，内码则为国标码（国家标准代码：现在强制要求使用GB18030标准；较旧计算机仍然使用GB2312）。而统一码（Unicode）则为另一常见内码。

2.2 百度百科的解释

内码是指整机系统中使用的二进制字符编码，是沟通输入、输出与系统平台之间的交换码，通过内码可以达到通用和高效率传输文本的目的。比如MS Word中所存储和调用的就是内码而非图形文字。英文ASCII字符采用一个字节的内码表示，中文字符如国标字符集中，GB2312、GB12345、 GB13000皆用双字节内码，GB18030（27,533汉字）双字节内码汉字为20,902个，其余6,631个汉字用四字节内码。

3、字符编码分类总结

下面从计算机对多国语言支持的角度来总结字符编码。

3.1 ASCII编码

以下来自“维基百科”：

ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语，而其扩展版本EASCII则可以勉强显示其他西欧语言。它是现今最通用的单字节编码系统（但是有被UniCode追上的迹象），并等同于国际标准ISO/IEC 646。

ASCII第一次以规范标准的型态发表是在1967年，最后一次更新则是在1986年，至今为止共定义了128个字符；其中33个字符无法显示（这是以现今操作系统为依归，但在DOS模式下可显示出一些诸如笑脸、扑克牌花式等8-bit符号），且这33个字符多数都已是陈废的控制字符。控制字符的用途主要是用来操控已经处理过的文字。在33个字符之外的是95个可显示的字符，包含用键盘敲下空白键所产生的空白字符也算1个可显示字符（显示为空白）。

ASCII表：见http://zh.wikipedia.org/zh-cn/ASCII

ASCII缺点：

ASCII的最大缺点是只能显示26个基本拉丁字母、阿拉伯数目字和英式标点符号，因此只能用于显示现代美国英语（而且在处理英语当中的外来词如naïve、café、élite等等时，所有重音符号都不得不去掉，即使这样做会违反拼写规则）。而EASCII虽然解决了部份西欧语言的显示问题，但对更多其他语言依然无能为力。因此现在的苹果电脑已经抛弃ASCII而转用Unicode。

最早的英文DOS操作系统的系统内码是：ASCII。计算机这时候只支持英语，其他语言不能够在计算机存储和显示。

在该阶段，单字节字符串使用一个字节存放一个字符（SBCS,Single Byte Character System）。如："Bob123"占6个字节。

3.2 ANSI编码

为使计算机支持更多语言，通常使用0x800~xFF范围的2个字节来表示1个字符。比如：汉字 '中' 在中文操作系统中，使用 [0xD6,0xD0]这两个字节存储。

不同的国家和地区制定了不同的标准，由此产生了GB2312,BIG5,JIS等各自的编码标准。这些使用2个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。

不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。

中文DOS、中文/日文Windows 95/98时代系统内码使用的是ANSI编码（本地化）

在使用ANSI编码支持多语言阶段，每个字符使用一个字节或多个字节来表示（MBCS，Multi-Byte Character System），因此，这种方式存放的字符也被称作多字节字符。比如，"中文123" 在中文 Windows 95 内存中为7个字节，每个汉字占2个字节，每个英文和数字字符占1个字节。

在非 Unicode 环境下，由于不同国家和地区采用的字符集不一致，很可能出现无法正常显示所有字符的情况。微软公司使用了代码页（Codepage）转换表的技术来过渡性的部分解决这一问题，即通过指定的转换表将非 Unicode 的字符编码转换为同一字符对应的系统内部使用的 Unicode 编码。可以在“语言与区域设置”中选择一个代码页作为非 Unicode 编码所采用的默认编码方式，如936为简体中文GBK，950为正体中文Big5（皆指PC上使用的）。在这种情况下，一些非英语的欧洲语言编写的软件和文档很可能出现乱码。而将代码页设置为相应语言中文处理又会出现问题，这一情况无法避免。从根本上说，完全采用统一编码才是解决之道，但目前尚无法做到这一点。

　　代码页技术现在广泛为各种平台所采用。UTF-7 的代码页是65000，UTF-8 的代码页是65001。

3.3 Unicode编码

为了使国际间信息交流更加方便，国际组织制定了 UNICODE 字符集，为各种语言中的每一个字符设定了统一并且唯一的数字编号，以满足跨语言、跨平台进行文本转换、处理的要求。

Unicode字符集可以简写为UCS（Unicode Character Set）。早期的unicodeUnicode标准有UCS-2、UCS-4的说法。UCS-2用两个字节编码，UCS-4用4个字节编码。

在 UNICODE 被采用之后，计算机存放字符串时，改为存放每个字符在 UNICODE 字符集中的序号。目前计算机一般使用 2 个字节（16 位）来存放一个序号（DBCS,Double Byte Character System），因此，这种方式存放的字符也被称作宽字节字符。比如，字符串 "中文123" 在 Windows 2000 下，内存中实际存放的是 5 个序号，一共10个字节。

Unicode字符集包含了各种语言中使用到的所有“字符”。用来给 UNICODE 字符集编码的标准有很多种，比如：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。

4、常用编码规则

4.1 单字节字符编码

（1）编码标准：ISO-8859-1。

（2）说明：最简单的编码规则，每一个字节直接作为一个 UNICODE 字符。比如，[0xD6, 0xD0] 这两个字节，通过 iso-8859-1 转化为字符串时，将直接得到 [0x00D6, 0x00D0] 两个 UNICODE 字符，即 "ÖÐ"。

反之，将 UNICODE 字符串通过 iso-8859-1 转化为字节串时，只能正常转化 0~255 范围的字符。

4.2 ANSI编码

（1）GB2312, BIG5, Shift_JIS, ISO-8859-2。

（2）把 UNICODE 字符串通过 ANSI 编码转化为“字节串”时，根据各自编码的规定，一个 UNICODE 字符可能转化成一个字节或多个字节。

反之，将字节串转化成字符串时，也可能多个字节转化成一个字符。比如，[0xD6, 0xD0] 这两个字节，通过 GB2312 转化为字符串时，将得到 [0x4E2D] 一个字符，即 '中' 字。

“ANSI 编码”的特点：

（1）这些“ANSI 编码标准”都只能处理各自语言范围之内的 UNICODE 字符。

（2）“UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。

4.3 UNICODE编码

（1）编码标准：UTF-8, UTF-16, UnicodeBig。

（2）与“ANSI 编码”类似的，把字符串通过 UNICODE 编码转化成“字节串”时，一个 UNICODE 字符可能转化成一个字节或多个字节。

与“ANSI 编码”不同的是：

（1）这些“UNICODE 编码”能够处理所有的 UNICODE 字符。

（2）“UNICODE 字符”与“转换出来的字节”之间是可以通过计算得到的。

我们实际上没有必要去深究每一种编码具体把某一个字符编码成了哪几个字节，我们只需要知道“编码”的概念就是把“字符”转化成“字节”就可以了。对于“UNICODE 编码”，由于它们是可以通过计算得到的，因此，在特殊的场合，我们可以去了解某一种“UNICODE 编码”是怎样的规则。

5、编码的区别

5.1 GB2312、GBK和GB18030

（1）GB2312

当中国人们得到计算机时，已经没有可以利用的字节状态来表示汉字，况且有6000多个常用汉字需要保存，于是想到把那些ASCII码中127号之后的奇异符号们直接取消掉, 规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了。这种汉字方案叫做 "GB2312"。GB2312 是对 ASCII 的中文扩展。兼容ASCII。

（2）GBK

但是中国的汉字太多了，我们很快就就发现有许多人的人名没有办法在这里打出来，不得不继续把 GB2312 没有用到的码位找出来用上。后来还是不够用，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 “GBK” 标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。

（3）GB18030

后来少数民族也要用电脑了，于是我们再扩展，又加了几千个新的少数民族的字，GBK 扩成了 GB18030。从此之后，中华民族的文化就可以在计算机时代中传承了。

中国的程序员们看到这一系列汉字编码的标准是好的，于是通称他们叫做 "DBCS"（Double Byte Charecter Set 双字节字符集）。在DBCS系列标准里，最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里，因此他们写的程序为了支持中文处理，必须要注意字串里的每一个字节的值，如果这个值是大于127的，那么就认为一个双字节字符集里的字符出现了。在这种情况下，"一个汉字算两个英文字符！"。然而，在Unicode环境下却并非总是如此。

5.1 Unicode和BigEndianUnicode

这两个指示存储顺序不同，如"A"的Unicode编码为6500，而BigEndianUnicode编码为0065。

5.2 UTF-7、UTF-8和UTF-16

在Unicode里，所有的字符被一视同仁。汉字不再使用“两个扩展ASCII”，而是使用“1个Unicode”，注意，现在的汉字是“一个字符”了，于是，拆字、统计字数这些问题也就自然而然的解决了。

但是，这个世界不是理想的，不可能在一夜之间所有的系统都使用Unicode来处理字符，所以Unicode在诞生之日，就必须考虑一个严峻的问题：和ASCII字符集之间的不兼容问题。

我们知道，ASCII字符是单个字节的，比如“A”的ASCII是65。而Unicode是双字节的，比如“A”的Unicode是0065，这就造成了一个非常大的问题：以前处理ASCII的那套机制不能被用来处理Unicode了。

另一个更加严重的问题是，C语言使用'\0'作为字符串结尾，而Unicode里恰恰有很多字符都有一个字节为0，这样一来，C语言的字符串函数将无法正常处理Unicode，除非把世界上所有用C写的程序以及他们所用的函数库全部换掉。

于是，比Unicode更伟大的东东诞生了，之所以说它更伟大是因为它让Unicode不再存在于纸上，而是真实的存在于我们大家的电脑中。那就是：UTF。

UTF= UCS Transformation Format，即UCS转换(传输)格式。

它是将Unicode编码规则和计算机的实际编码对应起来的一个规则。现在流行的UTF有2种：UTF-8和UTF-16。

这两种都是Unicode的编码实现。

5.2.1 UTF-8

UCS-2编码(16进制) UTF-8 字节流(二进制)

0000 - 007F 0xxxxxxx

0080 - 07FF 110xxxxx 10xxxxxx

0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

可见UTF-8是变长的，将Unicode编码为00000000-0000007F的字符，用单个字节来表示； 00000080-000007FF的字符用两个字节表示；00000800-0000FFFF的字符用3字节表示。因为目前为止Unicode-16规范没有指定FFFF以上的字符，所以UTF-8最多是使用3个字节来表示一个字符。但理论上来说，UTF-8最多需要用6字节表示一个字符。

UTF-8兼容ASCII。

5.2.2 UTF-16（标准的Unicode成为UTF-16）

UTF-16和上面提到的Unicode本身的编码规范是一致的。

UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码，UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于0x10000的UCS码，定义了一个算法。不过由于实际使用的UCS2，或者UCS4的BMP必然小于0x10000，所以就目前而言，可以认为UTF-16和UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题。

UTF-16不兼容ASCII。

5.2.3 UTF-7

UTF-7 (7-位元 Unicode 转换格式（Unicode Transformation Format，简写成 UTF）) 是一种可变长度字元编码方式，用以将 Unicode 字元以 ASCII 编码的字元串来呈现，可以应用在电子邮件传输之类的应用。

UTF-7并非Unicode标准之一。想要详细了解的可以查阅相关资料。

6、Unicode与UTF

Unicode是内存编码表示方案（是规范），而UTF是如何保存和传输Unicode的方案（是实现）。

6.1 UTF的字节序和BOM

6.1.1 字节序

UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎”还是“乙”？

Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：

在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。

这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF（读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

6.1.2 BOM

（1）BOM的来历

为了识别 Unicode 文件，Microsoft 建议所有的 Unicode 文件应该以 ZERO WIDTH NOBREAK SPACE（U+FEFF）字符开头。这作为一个“特征符”或“字节顺序标记（byte-order mark，BOM）”来识别文件中使用的编码和字节顺序。

（2）不同的系统对BOM的支持

因为一些系统或程序不支持BOM，因此带有BOM的Unicode文件有时会带来一些问题。

①JDK1.5以及之前的Reader都不能处理带有BOM的UTF-8编码的文件，解析这种格式的xml文件时，会抛出异常：Content is not allowed in prolog。“对于解决方法，之后我会写篇文章专门讨论该问题。”

②Linux/UNIX 并没有使用 BOM，因为它会破坏现有的 ASCII 文件的语法约定。

③不同的编辑工具对BOM的处理也各不相同。使用Windows自带的记事本将文件保存为UTF-8编码的时候，记事本会自动在文件开头插入 BOM（虽然BOM对UTF-8来说并不是必须的）。而其它很多编辑器用不用BOM是可以选择的。UTF-8、UTF-16都是如此。

（3）BOM与XML

XML解析读取XML文档时，W3C定义了3条规则：

①如果文档中有BOM，就定义了文件编码；

②如果文档中没有BOM，就查看XML声明中的编码属性；

③如果上述两者都没有，就假定XML文档采用UTF-8编码。

6.2 决定文本的字符集与编码

软件通常有三种途径来决定文本的字符集和编码。

（1）对于Unicode文本最标准的途径是检测文本最开头的几个字节。如：

开头字节 Charset/encoding

EF BB BF　　　 UTF-8

FE FF　　　　　UTF-16/UCS-2, little endian(UTF-16LE)

FF FE　　　　　UTF-16/UCS-2, big endian(UTF-16BE)

FF FE 00 00　　UTF-32/UCS-4, little endian.

00 00 FE FF　　UTF-32/UCS-4, big-endia

（2）采取一种比较安全的方式来决定字符集及其编码，那就是弹出一个对话框来请示用户。

然而MBCS文本（ANSI）没有这些位于开头的字符集标记，现在很多软件保存文本为Unicode时，可以选择是否保存这些位于开头的字符集标记。因此，软件不应该依赖于这种途径。这时，软件可以采取一种比较安全的方式来决定字符集及其编码，那就是弹出一个对话框来请示用户。

（3）采取自己“猜”的方法。

如果软件不想麻烦用户，或者它不方便向用户请示，那它只能采取自己“猜”的方法，软件可以根据整个文本的特征来猜测它可能属于哪个 charset，这就很可能不准了。使用记事本打开那个“联通”文件就属于这种情况。（把原本属于ANSI编码的文件当成UTF-8处理，详细说明见：http://blog.csdn.net/omohe/archive/2007/05/29/1630186.aspx）

6.3 记事本的几种编码

（1）ANSI编码

记事本默认保存的编码格式是：ANSI，即本地操作系统默认的内码，简体中文一般为GB2312。这个怎么验证呢？用记事本保存后，使用 EmEditor、EditPlus和UltraEdit之类的文本编辑器打开。推荐使用EmEditor，打开后，在又下角会显示编码：GB2312。

（2）Unicode编码

用记事本另存为时，编码选择“Unicode”，用EmEditor打开该文件，发现编码格式是：UTF-16LE+BOM（有签名）。用十六进制方式查看，发现开头两字节为：FF FE。这就是BOM。

（3）Unicode big endian

用记事本另存为时，编码选择“Unicode”，用EmEditor打开该文件，发现编码格式是：UTF-16BE+BOM（有签名）。用十六进制方式查看，发现开头两字节为：FE FF。这就是BOM。

（4）UTF-8

用记事本另存为时，编码选择“UTF-8”，用EmEditor打开该文件，发现编码格式是：UTF-8（有签名）。用十六进制方式查看，发现开头三个字节为：EF BB BF。这就是BOM。

7、几种误解，以及乱码产生的原因和解决办法

7.1 误解一

在将“字节串”转化成“UNICODE 字符串”时，比如在读取文本文件时，或者通过网络传输文本时，容易将“字节串”简单地作为单字节字符串，采用每“一个字节”就是“一个字符”的方法进行转化。

而实际上，在非英文的环境中，应该将“字节串”作为 ANSI 字符串，采用适当的编码来得到 UNICODE 字符串，有可能“多个字节”才能得到“一个字符”。

通常，一直在英文环境下做开发的程序员们，容易有这种误解。

7.2 误解二

在 DOS，Windows 98 等非 UNICODE 环境下，字符串都是以 ANSI 编码的字节形式存在的。这种以字节形式存在的字符串，必须知道是哪种编码才能被正确地使用。这使我们形成了一个惯性思维：“字符串的编码”。

当 UNICODE 被支持后，Java 中的 String 是以字符的“序号”来存储的，不是以“某种编码的字节”来存储的，因此已经不存在“字符串的编码”这个概念了。只有在“字符串”与“字节串”转化时，或者，将一个“字节串”当成一个 ANSI 字符串时，才有编码的概念。

不少的人都有这个误解。

7.3 分析与解决

第一种误解，往往是导致乱码产生的原因。第二种误解，往往导致本来容易纠正的乱码问题变得更复杂。

在这里，我们可以看到，其中所讲的“误解一”，即采用每“一个字节”就是“一个字符”的转化方法，实际上也就等同于采用 iso-8859-1 进行转化。因此，我们常常使用 bytes = string.getBytes("iso-8859-1") 来进行逆向操作，得到原始的“字节串”。然后再使用正确的 ANSI 编码，比如 string = new String(bytes, "GB2312")，来得到正确的“UNICODE 字符串”。

8、参考与深入阅读学习资料

8.1 《字符，字节和编码》http://www.regexlab.com/zh/encoding.htm（强烈推介）

8.2 《关于编码: ascii(ansi), gb-2312, unicode, utf8》http://blog.csdn.net/omohe/archive/2007/05/29/1630186.aspx

8.3 《Ansi,UTF8,Unicode,ASCII编码的区别》http://hi.baidu.com/%D6%F0%C4%BE/blog/item/772c5944d5e77e8bb3b7dcab.html

8.4 百度百科《Unicode》http://baike.baidu.com/view/40801.htm

8.5 《Unicode与UTF-8/UTF-16之间有啥联系或区别？》http://zhidao.baidu.com/question/52532619.html?fr=ala0

HTTP 请求处理的完整流程到Servlet流程图烟雨国度 http servlet 流程图
HTTP请求处理的完整流程。从TCP三次握手开始，一直到Servlet处理请求并返回响应。首先，让我解释一下response.setContentType("text/html;charset=UTF-8");这行代码：这行代码设置了HTTP响应的Content-Type头。它告诉浏览器：响应的内容类型是HTML(text/html)字符编码是UTF-8(charset=UTF-8)这样浏览器就知
HTML添加文字若无心_. HTML html5
一、创建HTML5文档基本标签//定义文档类型//定义HTML文档//定义关于文档的信息文档标题//定义文档的标题//定义文档的字符编码//定义文档的主体二、文字相关标签1.标题文字-标签可定义标题。定义最大的标题。定义最小的标题。Document这是标题1这是标题2这是标题3这是标题4这是标题5这是标题62.文本段落Document这次会晤的主题是“金砖国家在非洲：在第四次工业革命中共谋包容增长
Unicode字符编码过好每一天的女胖子 Windows c++windows
1、简介Unicode是ASCII（美国信息交换标准码）字符编码的一个扩展。ASCII中每个字符用7位表示，计算机上每个字符8位。Unicode使用全16为字符编码，因此Unicode能表示世界上所有能用于计算机通讯的符号。Unicode最初是作为ASCII的补充。ASCII最终有26个小写/大写字母、10个数字、32个符号、33个控制代码和一个空格，共128个代码。1、优点大小写字符的代码是连续
python字串节对象Bytes 局外人LZ python python
一、简介字节串（bytes）是二进制数据的一种表示形式。它由一系列的字节组成，每个字节都是一个范围为0-255的整数。字节串可以用来表示二进制数据，例如图像、音频、视频、网络数据等。字节串与字符串（str）类型不同，字符串是由Unicode字符组成的文本数据。而字节串是原始的二进制数据，它不具备字符编码的概念，而是将数据以字节的形式进行存储和处理。在处理二进制数据时，字节串是非常有用的数据类型。它
浅谈gbase与oracle 字符集差异 gbase_lmax java 前端开发语言
字符集字符集（CharacterSet）：按照一定的字符编码方案，将特定的符号集编码为计算机能够处理的数值的集合。常见字符集名称：ASCII字符集、Unicode字符集、GB2312字符集、BIG5字符集、GB18030字符集等。字符编码字符编码（CharacterEncoding）：是一套规则，对字符集进行编码的方案。如，Unicode是字符集，UTF-8、UTF-16、UTF-32是三种字符编
字符编码方案：Unicode flying jiang 快速开发 java 前端开发语言
摘要：Unicode（统一码、万国码、单一码）是一种在计算机上广泛使用的字符编码，旨在解决传统字符编码方案的局限，为每种语言中的每个字符设定了统一且唯一的二进制编码，以满足跨语言、跨平台进行文本转换和处理的需求。以下是关于Unicode编码的详细解析：一、历史背景起源与发展：Unicode编码的历史可以追溯到20世纪60年代，当时计算机科学家们意识到不同计算机系统使用不同的字符编码方式，导致文本和
latex学习笔记（三）——中文处理办法 richybai
1.准备工作①，在选项->设置->构建->默认编辑器的下拉菜单中选择XeLaTeX②，在选项->设置->编辑器->默认字体编码的下拉菜单中选择UTF-8③，在软件右下角确定字符编码为UTF-8，如下图所示设置为UTF-82.开始编写中文①，首先导入ctex宏包:\usepackage{ctex}②，将title改为中文内容\title{\heiti学习笔记}%\heiti使中文显示为黑体\auth
MobaXterm设置自动保存日志 Tassel_YUE Linux #Shell 运维
目录需求操作需求想让MobaXterm设置日志自动保存，可以有效追踪过去操作。操作点击Setting按照下图设置：logtype选项卡中三个选项的区别：printableoutput：正常的日志导出outputallsession：类似第一个，不会可能出现字符编码问题printableoutputwithtimestamps：每一行日志都带上时间戳logfilename可以根据自己的需求自定义文件
C语言文件 Qi妙代码 c语言开发语言
1.文件流1.1.文件流概念C语言把文件看作是一个字符的序列，即文件是由一个一个字符组成的字符流，因此c语言将文件也称之为文件流。当读写一个文件时，可以不必关心文件的格式或结构1.2.文件类型1.2.1.文件分类计算机的存储，物理上是二进制的。文本文件是基于字符编码的文件，常见的编码有ASCII编码，二进制文件是基于值编码的文件文本文件：以ASCII码形式存放，一个字节存放一个字符存放每一个ASC
书写HTML的规范恶心_3da6
文章目录1.1通用约定标签Class与ID属性顺序引号嵌套语义嵌套约束严格嵌套约束布尔值属性1.2语义化常见标签语义示例1.3HEAD文档类型语言属性字符编码IE兼容模式SEO优化viewportiOS图标favicon完整的HEAD模板1.1通用约定标签自闭合（self-closing）标签，无需闭合(例如：imginputbrhr等)；可选的闭合标签（closingtag），需闭合(例如：或)
6 字符编码 collman Java基础 android java 跨平台文档编程平台
----------------------android培训、java培训、期待与您交流！----------------------字符编码l计算机里只有数字，计算机软件里的一切都是用数字来表示的，屏幕上显示的一个个字符也不例外。l字符a对应数字97，字符b对应98等，这种字符与数字对应的编码规则被称为ASCII（美国标准信息交换码）。ASCII的最高bit位为0，也就是说这些数字在0到127
Eclipse设置全局UTF-8 小白羊MM
如果要使插件开发应用能有更好的国际化支持，能够最大程度的支持中文输出，则最好使Java文件使用UTF-8编码。然而，Eclipse工作空间(workspace)的缺省字符编码是操作系统缺省的编码。在使用Eclipse时，若要使新建的工程全局都直接使用UTF-8编码而不需要一个个文件去设置，则可以按以下步骤去设置：1、打开“窗口->首选项->常规->工作空间”，将“文本文件编码”设置为UTF-8。那
linux的locale选择小胖_20c7
关于locale的基本概念1名称：对外的接口，用来建立（语系+字符集）的映射关系2语系：决定了该语言包括哪些字符（unicode的字符序号来定义的，字符序号和字符编码不是一回事，字符序号是统一的），以及这些字符的表现格式等3字符集：用于该语系的字符编码4字体用于把字符集的编码转换成屏幕上的字体显示locale涉及到的配置1/etc/sysconfig/i18n：设置默认的语系名称（缺省设置，每个登
换行、回车、字符编码的理解 O-0-O 零散文章
问题描述在20190727当天投产时遇到了一个问题，容器中有字段A及相应的值，但数据入库时该字段为空。对比投产前后的日志情况，发现投产后的SQL多了换行。无其它区别。猜测可能是换行导致的。问题排查（应用采用的入库的方式：1.将SQL配置到数据库中，字段列或条件列以","分隔2.执行INSERT时，将字段或条件以","分隔成列表，进行一一对应。问题即出现在这里）投产之前的sql：a,b,c,d,e,
SpringBoot 笔记 duanmy0687 springboot
时代背景：微服务分布式云原生：docker、kubernetes自动配置原理依赖管理父项目负责依赖管理导入starter场景启动器无需关注版本号，自动版本仲裁自动配置自动配好Tomcat自动配好SpringMVC自动配好Web常见功能，如：字符编码问题组件添加@Configuration@Bean@Component@Controller@Service@Repository@ComponentS
UTF-8 编码简介星河繁开发语言
UTF-8（8位元Unicode转换格式）是一种针对Unicode字符集设计的可变长度字符编码方案。其主要特点如下：可变长度：UTF-8使用1到4个字节来表示Unicode字符，根据字符在Unicode中的位置决定所需的字节数量。ASCII字符集中7位的字符仅用一个字节存储，与ASCII编码完全兼容。编码规则：对于ASCII字符（U+0000至U+007F），UTF-8编码与ASCII编码相同，即
GBK与UTF-8的区别，如何将GBK的文本转UTF-8，将UTF-8编码的文本转GBK kfhj 预编码算法
GBK与UTF-8是两种不同的字符编码方式，它们的主要区别体现在以下几个方面：字符集范围：GBK编码主要支持中文字符和日韩字符，而UTF-8编码则支持全球范围内的字符，包括各种语言和符号。编码方式：GBK编码采用双字节编码，即每个字符都占用两个字节的空间。而UTF-8编码则采用变长编码，根据字符的不同，一个字符的编码长度可以是1到4个字节。这种特性使得UTF-8在编码英文等字符时只需一个字节，从而
Python chardet.detect 字符编码检测 in_tsz python 开发语言
chardet.detect是Python的一个库，用于检测给定字节串的字符编码。其检测原理基于统计学方法。具体来说，chardet.detect使用了一种叫做统计字符n-gram（通常为n=1或n=2）的方法。它会统计字节串中每个字符或字符对出现的频率，并将这些统计结果与预先训练好的字符编码模型进行比较。这些模型包含了不同字符编码所特有的字符频率分布信息。当给定一个字节串时，chardet.de
文件显示命令LS和目录切换命令cd 好名字都被缑取了
ls（选项）（参数）选项-a：显示所有档案及目录（ls内定将档案名或目录名称为“.”的视为影藏，不会列出）；-A：显示除影藏文件“.”和“..”以外的所有文件列表；-C：多列显示输出结果。这是默认选项；-b：将文件中的不可输出的字符以反斜线“”加字符编码的方式输出；-c：与“-lt”选项连用时，按照文件状态时间排序输出目录内容，排序的依据是文件的索引节点中的ctime字段。与“-l”选项连用时，则
文本解码器（TextDecoder）详解爱蹦跶的大A阿 JavaScript保姆级教程前端 javascript
‍个人主页：《爱蹦跶的大A阿》当前正在更新专栏：《VUE》、《JavaScript保姆级教程》、《krpano》、《krpano中文文档》✨前言随着互联网技术的飞速发展，文本数据的传输和处理变得越来越普遍。在不同的计算机系统之间传输文本数据时，需要将文本编码为字节数组，以便在不同的字符编码环境下正确显示。文本解码器（TextDecoder）是JavaScript中一个重要的API，用于将字节数组解
Servlet之乱码问题处理 Gambler_Tu servlet servlet
文章目录乱码问题1.判断字符串的编码格式2.获取GET请求中的数据，打印乱码3.获取POST请求中的数据，打印乱码4.中文字符串，输出到页面显示乱码5.setContentType和setCharacterEncoding乱码问题1.判断字符串的编码格式注意，由于存在重码现象，以下方案并不严谨。//由于字符编码存在重叠区，所以一个字符/字符串有多种编码可能，是完全正常合理的。publicstati
解决Tomcat启动时控制台中文乱码问题马佳乐
代码运行输出正常，下面控制台出现中文乱码：而且明明文本编码格式也都修改为了UTF-8，但依旧解决不了这个问题。该问题产生的原因：因为windows系统中，其命令行窗口在解码字节数组时，默认使用本地字符集（对于我们就是GBK），而Tomcat默认输出的启动信息是通过UTF-8进行编码的，这就导致编码与解码所使用字符集的不一致，从而出现了乱码情况！解决方法:操作：只需要将Tomcat的默认字符编码UT
ascii码，unicode编码集和utf编码方式可爱的小小小狼杂项开发语言
ASCII码ASCII码使用7位二进制数表示一个字符，共定义了128个字符，包括基本的拉丁字母、数字、标点符号和一些控制字符。每个字符都被赋予一个唯一的数值，这个数值在0到127之间。Unicode编码集Unicode是一个字符编码标准，它为世界上几乎所有的字符分配了唯一的标识符。Unicode字符集包括了各种语言、符号、标点符号、数学符号、技术符号、图形符号等，总计超过130,000个字符。un
字符编码肥猫想要飞
为什么写这篇文章字符编码的问题一直以来困然着我，每次遇到相关问题需要解决，都要重新去搜索学习。但是，网上的一些文章往往也是自相矛盾的半成品，再加上windows的奇怪命名，导致我对这些概念似懂非懂，所以想借此机会重新理顺这些概念顺带学习。相关概念字符集(characterset) 为每一个「字符」分配一个唯一的ID（学名为码位/码点/CodePoint）。ASCII，ISO-8859-1：英
HTML5学习（二）学习不止，掉发不停 html html5 学习前端
目录1.字符集characterset2.标题标签3.段落和换行标签4.文本格式化标签5.和标签6.图像标签7.路径8.超链接标签9.锚点链接10.注释标签11.特殊字符1.字符集characterset字符集是多个字符的集合，在标签内，可以通过标签的charset属性来规定HTML文件用那种字符编码。UTF-8是万国码，基本包含所有国家需要用到的字符，这个一定要写，防止乱码情况。2.标题标签一共
html header设置语言,HTML header weixin_39632057 html header设置语言
前言：这一片小文是说明header之中的常用标签以及相关的JS的使用的内容。正文：1、meta标签：定义当前页面的某些解析属性和SEO优化使用的内容。html内容：我们常常看到页面上面有许多的meta标签，他们具体是什么作用的呢。我们先来了解一下meta标签之中的属性。--charset：H5之中会有charset这个属性的设置。这一属性的是H5之后才可单独使用的，表示当前文件内容字符编码格式。一
CC工具箱使用指南：【汉字转为Unicode】规划GIS会 CC工具箱使用帮助 arcgis pro sdk c#二次开发 arcgis arcgis pro
一、简介Unicode又叫统一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。这个工具要实现的功能是将汉字转为Unicode。二、工具参数介绍点击【小工具】组里的【汉字转为Unicode】工具：即可打开下面的工具框界面：1、进
如何在 Python 中处理 Unicode 张无忌打怪兽 Python python 网络开发语言
介绍Unicode是世界上大多数计算机的标准字符编码。它确保文本（包括字母、符号、表情符号，甚至控制字符）在不同设备、平台和数字文档中显示一致，无论使用的操作系统或软件是什么。它是互联网和计算机行业的重要组成部分，没有它，互联网将会更加混乱和难以使用。Unicode本身不是编码，而更像是地球上几乎所有可能字符的数据库。Unicode包含一个代码点，用于标识其数据库中的每个字符，其值范围从0到110
关于html meta标签设置前端_小冲
META标签分两大部分：HTTP标题信息(http-equiv)和页面描述信息(name)。http-equivhttp-equiv类似于HTTP的头部协议，它回应给浏览器一些有用的信息，以帮助正确和精确地显示网页内容。设置页面编码charsetUTF-8是世界性通用编码，也完美的支持中文编码GB2312属于中文编码，针对国内用户使用，国外用户访问GB2312编码的网站就会变乱码。设置字符编码设置
R语言从拍摄照片生成色卡用于统计图 youmigo
ok.pngex_2021-04-29_02-10-25.pngex_2021-04-29_02-13-55.png图片1.jpg微信图片_20210429013555.jpg#ThuApr2901:37:232021-#字符编码：UTF-8#R版本：Rx644.0.5forwindow10#[email protected]#个人笔记不负责任，拎了个梨.rs.restartR()requir
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，