Unicode可以看做是一个映射,它定义了一个数字代码,这个代码关联到一个字符。

早期的Unicode是16位的,1996年后,Unicode2.0的出现,使得Unicode的编码范围从0-10FFFF(16进制),16进制10FFFF=二进制100001111111111111111,即目前编到21位。

UTF(Unicode transformation format)是一个映射算法,它将每一个Unicode代码映射到一个字节串。这种映射是可逆的。因此可以理解为UTF是Unicode的实现方式,UTF有多种版本,如下:

说说Unicode,UTF8,UTF16,BOM,Big endian,Little endian_第1张图片

UTF8和UTF16都是变长的编码方式,只有UTF32才是定长的编码方式。之所以要变长方式,是因为定长方式有时会太占空间。

UTF8的编码规则很简单,只有二条:

1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF8编码和ASCII码是相同的。

2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

具体在换算的时候,可以根据下面的表格,对应着填写。下面会有例子。如果文档有很多字母,则UTF8比纯粹的用UTF16节省了很多空间。

说说Unicode,UTF8,UTF16,BOM,Big endian,Little endian_第2张图片

windows系统中,notepad或者其他一些软件在保存对话框的编码方式列表中出现“Unicode”这一个名字,这种叫法非常误导人,使人以为unicode和UTF8是并列的关系,这其实是早期的一个称呼(来自windows NT的早期版本的习惯,一直沿用),事实上它指的是UTF16。

big-endian,little-endian大端序,小端序和BOM(byte-order mark)

UTF16采用UCS-2格式直接存储。需要用两个字节存储,哪一个字节是高位哪一个字节是低位并没有特别规定。因此,就产生了2种方式,比如一个unicode编码为4E25的,存储的时候,4E在前,25在后,就是Big endian方式;25在前,4E在后,就是Little endian方式。UTF8由于特殊的算法,因此也不存在大端小端的说法。

这两个古怪的名称来自英国作家斯威夫特的《格列佛游记》。在该书中,小人国里爆发了内战,战争起因是人们争论,吃鸡蛋时究竟是从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开。为了这件事情,前后爆发了六次战争,一个皇帝送了命,另一个皇帝丢了王位。

计算机并不会知道这个文件是大端序还是小端序,因此要在文件头加入标记。UTF8中,用字符EFBBBF 表示字节序,UTF16中用字符FEFF用来标示其字节序,如果出现在字节流的开头,则用来标识该字节流的字节序,是高位在前还是低位在前。如果它出现在字节流的中间,则表达零宽度非换行空格的意义,用户看起来就是一个空格。从Unicode3.2开始,U+FEFF只能出现在字节流的开头,只能用于标识字节序,就如它的名称——字节序标记——所表示的一样;除此以外的用法已被舍弃。取而代之的是,使用U+2060来表达零宽度无断空白。

不同编码的字节顺序标记的表示:

说说Unicode,UTF8,UTF16,BOM,Big endian,Little endian_第3张图片

示例

举个例子,对于“中”这个字,对应的unicode码是4E2D=100111000101101

如果对其用UTF16编码,则根据大小端的不同,有以下2种。

FE FF 4E 2D UTF16大端

B96061B5FF824F09A073E58D621432B4[4]

FF FE 2D 4E UTF16小端

3F997E6FF7394FE4AEC5E113A09907DC[4]

如果使用UTF8,则根据4E2D=100111000101101,有15位长,则对应

将100111000101101按照低位到高位,填补那些x,如果有不足就用0。

1110xxxx 10xxxxxx 10xxxxxx

11100100 10111000 10101101=E4B8AD

红色的就是100111000101101填补上去的,绿色的是补足的0。

UTF8 没有BOM

说说Unicode,UTF8,UTF16,BOM,Big endian,Little endian_第4张图片

UTF8如果带有BOM,则就是加入编码EF BB BF

5115D114AFB0430AB8F4B065706BACCD[4]

例子可以看出,如果忽略BOM,大小端。UTF16不一定会比UTF8占空间。因为UTF16和UTF8都是变长编码UTF8是1-4个字节,UTF16是2-4个字节。

参考文档:

http://en.wikipedia.org/wiki/Unicode

http://en.wikipedia.org/wiki/UTF-8

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html