关于Unicode与UTF-8的说明

Unicode note

  1. ASCII码
  • ASCII码一共规定了128个字符的编码,这128个符号,只占用了一个字节的后面7个位,最前面的1位统一规定为0。

2.非ASCII码

  • 其他的语言用128个字符是不够的,所以就需要多个字节来表示符号,但是不同的国家有不同的字母,所以就算是多字节,每个字节可能在不同的国家就代表着不同的符号,比如汉字就多达10万多个,简体中文常见的编码方式是GB2312,使用两个字节来表示一个汉字,理论上能表示65536个字符。
  1. Unicode
  • 世界上存在着许多的编码方式,Unicode是一个很大的集合,能将世界上所有的符号收纳其中,那么乱码的问题就可以得以解决,Unicode是一个很大的集合,现在的规模可以容纳100多万个字符,每个符号的编码都是不一样的。

  • Unicode只是一个符号集,只规定了符号的二进制代码,并没有规定这个二进制代码应该怎么储存,也就是这个符号的存储有可能是一个字节,也有可能是两个字节,三个字节,四个字节等,所以现在就很容易出现问题: 1.如何能区别Unicode 和 ASCII码? 2.我们知道英文字母用一个字节表示就够了,如果Unicode统一规定每个符号用两个或者三个字节来存储,就会造成每个英文字符前必然有两到三个字节全是0,这对于存储来说会造成极大的浪费。

  • 为了解决上面的问,出现的结果:1.出现了Unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以表示Unicode。2. Unicode在很长一段时间内无法推广,直到互联网出现。

  1. UTF-8
    互联网的普及,出现了一种统一的编码方式。它可以使用1~4个字节表示一个符号,根据不用的符号而变化字节长度。
    UTF-8的编码规则很简单,只有两条:
    1.对于单字节的符号,字节的第一位设为0,后面7位为这个富豪的unicode码,因为对于英文字母,UTF-8编码和ASCII码是相同的。
    2.对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律为10。剩下的没有提及的二进制位,全部为这个符号的Unicode码。
    以下表格总结编码规则(字母x表示可用编码的位):
Unicode符号范围 UTF-8编码方式
0000 0000 0000 007F 0xxxxxxx
0000 0080 0000 07FF 110xxxxx 10xxxxxx
0000 0800 0000 FFFF 110xxxxx 10xxxxxx 10xxxxxx
0001 0000 0010 FFFF 110xxxxx 10xxxxxx 10xxxxxx 10xxxxxx
  1. 以汉字的"严"为例,演示如何实现UTF-8编码
  • 已知“严”的Unicode是4E25(100111000100101),根据上表,发现这个“严”字在第三行的范围,因此是需要三个字节,即格式是"110xxxxx 10xxxxxx 10xxxxxx"。然后从"严"的最后一个二进制位开始,依次从后面向前填入格式中的x,多出的补0,这样就能得到"严"的UTF-8编码是"11100100 10111000 10100101",也就是十六进制的0xE4B8A5。
  1. Unicode 与 UTF-8之间的转换
  • "严"的Unicode码是4E25,UTF-8编码是E4B8A5。两者是不一样的,可以尝试一下用notepad++进行转换。
  1. Little endian 和 Big endian
  • Unicode码可以采用UCS-2格式直接存储。以汉字"严"为例,Unicode码是4E25,需要用两个字节存储,一个字节是4E,另一个字节是25。存储的时候,4E在前,25在后,就是Big endian方式;25在前,4E在后,就是Little endian方式(如果先取出来的是高字节的是大端模式,反之是小端模式)。

  • Unicode规范中定义,每一个文件的最前面分别加入一个表示编码顺序的字符,这个字符的名字叫做"零宽度非换行空格"(ZERO WIDTH NO-BREAK SPACE),用FEFF表示。这正好是两个字节,而且FF比FE大1。如果一个文本文件的头两个字节是FE FF,就表示该文件采用大头方式;如果头两个字节是FF FE,就表示该文件采用小头方式。

  1. 实例
  • 下面,举一个实例。

打开程序Notepad++,新建一个文本文件,内容就是一个"严"字,依次采用ANSI,Unicode,Unicode big endian 和 UTF-8编码方式保存。

然后,用文本编辑软件Notepad++中的编码方式,观察该文件的内部编码方式。

1)ANSI:文件的编码就是两个字节"D1 CF",这正是"严"的GB2312编码,这也暗示GB2312是采用大头方式存储的。

2)Unicode:编码是四个字节"FF FE 25 4E",其中"FF FE"表明是小头方式存储,真正的编码是4E25。

3)Unicode big endian:编码是四个字节"FE FF 4E 25",其中"FE FF"表明是大头方式存储。

4)UTF-8:编码是六个字节"EF BB BF E4 B8 A5",前三个字节"EF BB BF"表示这是UTF-8编码,后三个"E4B8A5"就是"严"的具体编码,它的存储顺序与编码顺序是一致的

你可能感兴趣的:(个人杂谈,编码,UTF-8,Unicode)