字符编码些许事

我不想写一篇大而全的文章，也无力去查找那么多资料涵盖所有知识点，如果想了解更多信息，这里有几篇我认为写得不错的文章可以提供参考，本文也部分借鉴了其中的内容。

《字符编码的故事：ASCII，GB2312，Unicode，UTF-8，UTF-16》
《unicode,ansi,utf-8,unicodebigendian编码的区别》

基础概念

字符
字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等，甚至还可以包括无法显示的字符（比如ASCII标准定义了128个字符，其中33个字符无法显示）。
字符集
为了使计算机能够处理字符信息，首先要决定选取哪些字符。这样就形成了一个集合，或者说一个表，称为字符表（character repertoire）。当然，也可以认为这就是一个字符集（character set）。
例如，将所有的英文字母放在一起可以组成一个字符集，将所有的汉字放在一起可以组成一个字符集，等等。
编码字符集
对一个字符集中的所有字符进行编号，这种编号后的字符集叫做编码字符集（这里的编码仅仅指编号，不同于下文中的编码）。常见的编码字符集有ASCII、Unicode、GBK等。

可以这样来理解：字符串是由字符构成，字符在计算机硬件中通过二进制形式存储，这种二进制形式就是编码。如果直接使用 “字符串️字符️二进制表示（编码）” ，会增加不同类型编码之间转换的复杂性。所以引入了一个抽象层，“字符串️字符️与存储无关的表示️二进制表示（编码）” ，这样就可以用一种与存储无关的形式表示字符，不同的编码之间转换时可以先转换到这个抽象层，然后再转换为其他编码形式。
举个例子：Unicode 就是 “与存储无关的表示”，UTF-8 就是 “二进制表示”。

ASCII字符集

通常说的ASCII字符集不包括扩展集，只有128个字符，因此其编码的存储只需要使用7个bit，一个字节足够了最高位永远都是0。比如字符'0'，其代码是十六进制的0x30，二进制表示为00110000。

这里说个和ASCII字符集有关的编码方案，GSM标准协议规定单条短信最多存储140个字节的内容，如果短信内容只包含ASCII字符，因为ASCII字符的数据首位必定是0，所以GSM标准中规定了7bit编码的短信格式，只用7个bit来连续存储ASCII字符，这样原本140个8bit的存储空间，就可以存储160个7bit的数据。如果谁现在手上还有NOKIA手机，可以拿起来看看只包含ASCII字符的短信是不是可以输入160个字符，如果短信中包含了非ASCII字符（比如中文），那么所有字符都会变成双字节存储的编码（UCS-2编码），一条短信的内容就恢复成只能发送70个字符。现如今的智能手机大多都支持短信拼接，并不是说单条短信的容量增加了，而是将你编写的超过单条短信容量的短信分成多条发送，运营商也是按多条短信计的。

GB系列字符集

中文环境下如果要正常显示字符，仅依靠ASCII字符集是不行的，因此我们国家制订了一系列的国标(GB)，其中就包括GB2312、GB13000、GBK、GB18030......，最新的标准是GB18030，包含70244个字符。

Unicode字符集

Unicode字符集由多语言软件制造商组成的统一码联盟(Unicode Consortium)与国际标准化组织的ISO-10646工作组制订，为各种语言中的每个字符指定统一且唯一的代码点，以满足跨语言、跨平台转换和处理文本的要求。中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2编码,它用两个字节来编码一个字符，比如汉字"一"的编码是0x4E00。事实上Unicode对汉字支持不怎么好，这也是没办法的，简体和繁体总共有六七万个汉字，而UCS-2最多能表示65536个，所以Unicode只能排除一些几乎不用的汉字，好在GB2312字符集中常用的简体汉字也不过6763个，为了能表示所有汉字，Unicode也有UCS-4规范，就是用 4个字节来编码字符。

Unicode代码点范围为0x0_{0x10FFFF，共计1114112个代码点，划分为编号0}16的17个字符平面，每个平面包含65536个代码点。其中编号为0的平面最为常用，称为基本多语种平面(Basic Multilingual Plane, BMP)；其他平面则称为辅助语言平面。

为了描述一个代码点，可以采用U加十六进制整数的方法。比如，U+0041表示英文大写字母A，U+4E00表示汉字”一”。

编码

关于编码方式，当然可以采用类似ASCII字符集的编码方式——代码点等值转换法（这是我自己起的名字）。既然Unicode代码点的值的范围是0～0x10FFF，那么可以用一个21bit的编码单元来编码，直接把代码点等值转换成21bit的二进制序列。

但是这存在一个空间使用的问题，例如对于使用英语的人而言，ASCII基本可以满足使用。如果使用ASCII码，只需要1个字节来存储字符，但是若使用刚才的思路，需要将近3个字节来存储，这显然是浪费空间的。

如果需要支持的字符集再少一些，仅支持编号0的平面，那至少也有65535个字符，需要16bit的空间（2字节）来存储一个字符，即UCS-2编码，这种编码用来存储ASCII字符也是一种浪费。

Unicode在很长一段时间内无法推广，直到互联网的出现，为解决Unicode如何在网络上传输的问题，于是面向传输的众多 UTF（UCS Transfer Format）标准出现了，顾名思义，UTF-8就是每次8个位传输数据，而UTF-16就是每次16个位。UTF-8就是在互联网上使用最广的一种Unicode的实现方式，这是为传输而设计的编码，并使编码无国界，这样就可以显示全世界上所有文化的字符了。

UTF-8

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度，当字符在ASCII 码的范围时，就用一个字节表示，保留了ASCII字符一个字节的编码做为它的一部分，注意的是Unicode一个中文字符占2个字节，而UTF-8一个中文字符占3个字节）。从Unicode到UTF-8并不是直接的对应，而是要过一些算法和规则来转换。

Unicode符号范围(十六进制)	UTF-8编码方式（二进制）
0000 0000-0000 007F	0xxxxxxx
0000 0080-0000 07FF	110xxxxx 10xxxxxx
0000 0800-0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

举个例子：
还是用中文“一”，其Unicode值为0x4E00，落在0800-FFFF的范围内，事实上中文基本上都在这个区域。0x4E00的二进制表示为01001110 00000000，转换成UTF-8就是11100100 10111000 10000000，对应的十六进制表示是0xE4 0xB8 0x80。

UTF-16

UTF-16的编码单元是16bit，对于每个代码点，采用1个或者2个编码单元来表示，因此这是一个变长表示。

UTF-32

UTF-32采用代码点等值转换法，将每个代码点编码为1个32bit的编码单元(四字节)，因此空间效率较低，不如其它Unicode编码应用广泛。

工具推荐

这里有个网站提供的转码效果非常好，比起某些站长工具更标准。

Paste_Image.png

上图是使用该网站查找中文字符“一”的结果，可以看到其Unicode值为U+4E00，UTF-8编码为0xE4 0xB8 0x80，在URL中需要转码为%E4%B8%80，在js脚本中则是\u4e00......。

举几个栗子

有道翻译

用有道翻译的API来做演示，我们通过API获取单词"word"的中文翻译。

GET http://fanyi.youdao.com/openapi.do?keyfrom=WoxLauncher&key=1247918016&type=data&doctype=json&version=1.1&q=word

返回的JSON如下所示：

{
  "translation": [
    "词"
  ],
  "basic": {
    "us-phonetic": "wɝd",
    "phonetic": "wɜːd",
    "uk-phonetic": "wɜːd",
    "explains": [
      "n. [语] 单词；话语；消息；诺言；命令",
      "vt. 用言辞表达",
      "n. (Word)人名；(英)沃德"
    ]
  },
  "query": "word",
  "errorCode": 0,
  "web": [
    {
      "value": [
        "单词",
        "字",
        "字 (计算机)"
      ],
      "key": "word"
    },
    {
      "value": [
        "构词法",
        "造词法",
        "词性转换"
      ],
      "key": "Word Formation"
    },
    {
      "value": [
        "关键字",
        "中心词",
        "关键词"
      ],
      "key": "key word"
    }
  ]
}

返回的内容包含中文，从响应头我们可以看到返回的JSON使用了UTF-8编码：

Paste_Image.png

用Wireshark抓包看看具体内容：

Paste_Image.png

如上图所示，translation这个key对应的数组内容应该是"词"，所以我们看到高亮区域的内容是22 E8 AF 8D 22，0x22对应ASCII字符"，0xE8 0xAF 0x8D正是中文词的UTF-8编码。

ONE·一个

这个API是通过抓包抓出来的，谁让他们不走https呢?

GET http://v3.wufazhuce.com:8000/api/reading/index

返回数据太多，仅截取一小段进行分析。

{
  "res": 0,
  "data": {
    "essay": [
      {
        "content_id": "2176",
        "hp_title": "软糖| “白日梦” _ 初夏的味道",
        "hp_makettime": "2017-04-03 06:00:00",
        "guide_word": "我们每周会选择一个主题，由七个作者绘制不同风格的短篇漫画，每天一幅。",
        "start_video": "",
        "author": [
          {
            "user_id": "7742828",
            "user_name": "双麒_宋 ",
            "desc": "因爱而画，美好的作品产生于最压抑的欲望。",
            "wb_name": "",
            "is_settled": "0",
            "settled_type": "0",
            "summary": "因爱而画，美好的作品产生于最压抑的欲望。",
            "fans_total": "574",
            "web_url": "http://image.wufazhuce.com/FoPpyeue8ajoRlZ4Fy39a56o4NO-"
          }
        ],
    ......
    }
......
}

返回的内容包含中文，但从响应头我们看不到返回的JSON使用了什么编码格式：

Paste_Image.png

用Wireshark抓包看看具体内容：

Paste_Image.png

如上图所示，这个API请求返回的JSON数据输出的是中文的Unicode转义字符，这其实也是JS对中文的标准处理方式，猜测后台可能是NodeJS实现的。

我是咕咕鸡，一个还在不停学习的全栈工程师。
热爱生活，喜欢跑步，家庭是我不断向前进步的动力。

字符编码些许事

基础概念

ASCII字符集

GB系列字符集

Unicode字符集

编码

UTF-8

UTF-16

UTF-32

工具推荐

举几个栗子

有道翻译

ONE·一个

你可能感兴趣的:(字符编码些许事)