开发人员要掌握的关于Unicode和字符集的基础知识[ZT]

ASCII 码
------------------------------------------------------------------------------------
7位(00~7F)。32 ~ 127表示字符。32是空格, 32以下是控制字符(不可见)。
第8位没有被使用。全世界很多人同时对这个位的含义发展了不同的用处。比如IBM PC中的OEM字符集。
最后就128位以下的用处达成共识,制定了ASCII标准。
而128 位以上的可能有不同的解释,这些不同的解释就叫做code pages。甚至有用于在同一台电脑上解释多种语言的code page。

同时,在亚洲发生了更加疯狂的事情。亚洲语言的字符集通常数以千计, 8 位已经不足以表达,这通常用一种很凌乱的,叫做DBCS(双字节字符集,double byte character set)的系统来解决。这种系统中,有些字符占用1字节,有些2字节。这样一来,在字符串中向前解析很容易,而倒退却很麻烦。程序员们被建议,不要使用s++或s--来前进和后退,而使用一些函数,比如Windows的AnsiNext和AnsiPrev。因为这些函数知道是怎么回事。

这些不同的假设(code page)在单个的机器上没有问题。而随着Internet的发展,字符串要从一个机器上移到另一个机器上,这就产生了问题。于是,Unicode 出现了。


Unicode码
---------------------------------------------------------------------------------------
Unicode是一个勇敢的成就。它把在这个星球上的每一个合理的文字系统整合成了一个单一的字符集。
很多人还存在这样的误解:Unicode仅仅是16位的这么简单,每个字符占16位,所以一共有65536个可能的字符。
然而,这是错误的。不过不要紧,因为这是大部分人都会犯的一个普遍的错误。

实际上,Unicode理解字符的方式是截然不同的,而这是我们必须了解的。到目前为止,我们都曾经认为:一个字符对应到一些在磁盘上或内存中储存的位(bits)。 如:A->0100 0001,而在 Unicode 中,一个字符实际上对应一种叫做code point的东西。比如A这个字符,是抽象的(原文:platonic,柏拉图式的,理想的)一个概念。

无论是Times New Roman或者Helvetica或者其他的什么字体中,都代表同一个字符。但是它和小写的字母a不同。
但是在其他的语言,比如希伯莱语(Hebrew)或者德语(German), 阿拉伯语(Arabian) 中,同一个字母的不同的字形代表的含义是否相同,是有争议的。经过长时间的争论,这些也终于被确定了。

每一个字母表中的每一个抽象的字母,都被赋予了一个数字,比如 U+0645. 这个叫做code point。
U+ 表示:Unicode,数字是16进制的。
你可以通过charmap命令来查看所有这些编码(Windows 2000/XP 中),或者访问Unicode的网站(http://www.unicode.org)。

Unicode中code point的数字的大小是没有限制的,而且也早就超过了65535。所以不是每个字符都能存储在两个字节中。
那么,一个字符串 "Hello", 在 Unicode 中会表示成 5 个code points:
U+0048 U+0065 U+006C U+006C U+006F
只不过是一些数字。但我们现在还没有提到如何在磁盘或者Email中表示这些信息,这就是我们下面要提到的编码(Encoding)干的事情。



Encodings(编码)
-------------------------------------------------------------------------
最初的 Unicode Encoding,使用两个字节表示一个字符。那么 "Hello" 表示为:
00 48 00 65 00 6C 00 6C 00 6F
实际上,还有一种表示方式:
48 00 65 00 6C 00 6C 00 6F 00
到底高位字节在前还是低位字节在前面,是两种不同的模式。这要看特定的 CPU 在何种模式下工作的更快。所以这两种都有。
这就有了两种不同的 Unicode 表示方式了,为了区分,人们又采用了一种奇异的方式:
在每一个Unicode字符串的前面,加上FEFF(这称为 Unicode 字节顺序标志,Unicode Byte Order Mark).

如果你交换高位和低位次序,那么会加上一个 FFFE。这样,读这个字符串的人才知道要对每两个相邻的字节进行交换。
但在最初的时候,并不是每一个Unicode字符串都有这个标志的。

这看起来很不错。可程序员们开始抱怨了,“看看那些零!”。因为有些是美国人,他们使用英语。而英语中很少需要使用 U+00FF 以上的字符,有些人无法忍受采用双倍的存储空间来存储每个字符。基于这些原因,很多人决定忽视 Unicode,而同时,事情变得更糟了。

然后人们制定了UTF-8。UTF-8是用于保存Unicode code points的另一套系统。
每一个U+数字,在内存中占用8 bit. 在UTF-8中,任何一个0~127的code point占用一个字节。
只有128以及更大的才占用2,3,直到6个字节。

具体如下图所示:
16进制的最小的数   16进制的最大的数   内存中的字节序列
------------------------------------------------------------------------------
00000000     0000007F      0vvvvvvv
00000080     000007FF      110vvvvv 10vvvvvv
00000800     0000FFFF      1110vvvv 10vvvvvv 10vvvvvv
00010000     001FFFFF     11110vvv 10vvvvvv 10vvvvvv 10vvvvvv
00200000     03FFFFFF     111110vv 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv
04000000     7FFFFFFF     1111110v 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv

这看起来很不错,其中的英文字符和 ASCII 中一样。所以美国人根本没意识到有什么错误。只有世界上的其他国家需要使用高位的字节。特别的,"Hello" 这个字符串,Unicode code point为U+0048 U+0065 U+006C U+006C U+006F,会被存储为48 65 6C 6C 6F。和 ASCII,ANSI以及在这个星球上的任何一个OEM 的字符集中表示的含义都一样。

现在,如果你需要表示重音的字符,或者希腊语,你需要使用多个字节来表示一个 code point。但美国人不会介意这些(UTF-8还有一个好处就是,老的字符串处理程序使用一个为0的字节来表示null-terminator, 不会截断字符串)。


到目前为止已经介绍了三种Unicode的表示方法:
传统的双字节表示方法,称为UCS-2(因为有 2 个字节)或者UTF-16(因为有 16 个位)。而且你还要搞清楚是高位在前的,还是高位在后的 UCS-2。
还有一种就是新的UTF-8。如果你的程序只使用英文的话,它仍然会工作正常。
实际上还有一堆的其他办法对Unicode进行编码:
有UTF-7,这种编码方式大部分和UTF-8相同,但保证高位一定为0。
所以如果你必须通过某种Email系统传送Unicode,这些系统认为7位足够了,那使用UTF-7会正常。
还有UCS-4, 储存每一个code point为4个字节。它的优点是每一个字符都保存为同样长的。但很明显,缺点是浪费太多存储空间了。
所以,现在你思考问题要把每一个字符想象成抽象的一个Unicode code point. 而它们同样可以使用任何旧的方式编码。

举例来说,你可以把Unicode字符串Hello(U+0048 U+0065 U+006C U+006C U+006F)编码(encode)为ASCII,或者古老的OEM希腊语编码,或者希柏莱 ANSI 编码,等等。而有些字符串不能显示!也就是说,假如你要表示一个在某个编码中没有对应的 Unicode code point,通常会显示为一个?或者一个白色的小方框。

英文常用的一些编码有,Windows-1252(Windows 9x 标准for西欧语言)以及 ISO-8859-1,aka Latin-1(对任何西欧语言也有效)
如果用这些编码来尝试存储俄文字符,你会得到一堆的?符号。

UTF-7,8,16以及32都有一个优点,能够正确的存储任何的code point。



最简单,也是最重要的几个概念
====================================================================
一个字符串不指定它使用什么编码是没有意义的。
再也不要假定,“纯”文本(plain text)是ASCII.
没有 “纯文本” 这个东西。

如果你有一个字符串,在内存中,在文件中,或者在 Email 消息里,你必须知道它的编码是什么。否则你无法正确的解释或者显示给用户。
所有的诸如 “我的网页不能正常显示了”,或者 ”Email 消息不能正常显示了“ 之类的愚蠢问题, 都是因为, 没有告诉你到底是使用的那种编码,
UTF-8还是ASCII还是ISO 8859-1或者Windows 1252?? 那么自然无法正常的解释和显示,甚至不知道字符串该在哪里结束。

那么如何保留这样的编码标志,来表示字符串的编码?有一些基本的办法。
比如对于Email来说,在表单的header中加上:
Content-Type:text/plain;charset="UTF-8"
对于Web页面来说,原来的做法是,Web服务器随着web页面本身一起,发送一个类似于Content-Type的http header(不是在HTML里面,而是作为一个 response header 在HTML页之前发送)。

这样做有一个问题。如果你的Web服务器同时有多个站点,站点由多个不同的人用不同的语言开发的程序混在一起。那么Web服务器将无从得知,每一个文件是用什么编码方式写的。这样也就无法发送正确的Content-Type header。如果你能够在每一个HTML文件中记录Content-Type信息,那么就很方便了。可这念头似乎也很疯狂,因为你还没有知道用什么编码方式去读取这个文件,又怎么能读出编码信息呢?

幸好,几乎每一种编码中,对32~127的字符都解释的相同。所以你可以在每一个html文件中这么写:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8">
但是要注意,这个meta标签必须放在head中靠前面的位置才能保证不会出问题。 因为Web服务器读到这里的时候,就会停止解析,然后用读到的这个编码方式重新解析页面。

那么,作为Web浏览器来说,如果没有在meta标签中或者http headers中发现Content-Type, 会怎么样呢?
IE是这么做的:
先尝试去猜,根据特定的字节出现在各种语言的典型的编码中的频率。
如果编码设定不正常,用户可以通过 View|Encoding 菜单来尝试不同的编码方式。(当然,不是每个人都知道该这样做)
在VB,COM,Windows NT/2000/XP中,默认的字符串类型是UCS-2(2字节)的。在C++代码中,我们可以定义字符串为wchar_t(wide char),同时用wcs系列的函数代替str系列的函数。如wcscat,wcslen,而不是 strcat,strlen。在C代码中,要创建UCS-2字符串的话,只要在前面加一个 "L",如 L"Hello"。

对于Web页面,最好统一为使用UTF-8编码。这个编码已经被各种web浏览器支持了很多年了。

你可能感兴趣的:(unicode)