字符编码些许事

我不想写一篇大而全的文章,也无力去查找那么多资料涵盖所有知识点,如果想了解更多信息,这里有几篇我认为写得不错的文章可以提供参考,本文也部分借鉴了其中的内容。

  • 《字符编码的故事:ASCII,GB2312,Unicode,UTF-8,UTF-16》
  • 《unicode,ansi,utf-8,unicodebigendian编码的区别》

基础概念

  • 字符
    字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等,甚至还可以包括无法显示的字符(比如ASCII标准定义了128个字符,其中33个字符无法显示)。
  • 字符集
    为了使计算机能够处理字符信息,首先要决定选取哪些字符。这样就形成了一个集合,或者说一个表,称为字符表(character repertoire)。当然,也可以认为这就是一个字符集(character set)。
    例如,将所有的英文字母放在一起可以组成一个字符集,将所有的汉字放在一起可以组成一个字符集,等等。
  • 编码字符集
    对一个字符集中的所有字符进行编号,这种编号后的字符集叫做编码字符集(这里的编码仅仅指编号,不同于下文中的编码)。常见的编码字符集有ASCII、Unicode、GBK等。

可以这样来理解:字符串是由字符构成,字符在计算机硬件中通过二进制形式存储,这种二进制形式就是编码。如果直接使用 “字符串️字符️二进制表示(编码)” ,会增加不同类型编码之间转换的复杂性。所以引入了一个抽象层,“字符串️字符️与存储无关的表示️二进制表示(编码)” ,这样就可以用一种与存储无关的形式表示字符,不同的编码之间转换时可以先转换到这个抽象层,然后再转换为其他编码形式。
举个例子:Unicode 就是 “与存储无关的表示”,UTF-8 就是 “二进制表示”。

ASCII字符集

通常说的ASCII字符集不包括扩展集,只有128个字符,因此其编码的存储只需要使用7个bit,一个字节足够了最高位永远都是0。比如字符'0',其代码是十六进制的0x30,二进制表示为00110000。

这里说个和ASCII字符集有关的编码方案,GSM标准协议规定单条短信最多存储140个字节的内容,如果短信内容只包含ASCII字符,因为ASCII字符的数据首位必定是0,所以GSM标准中规定了7bit编码的短信格式,只用7个bit来连续存储ASCII字符,这样原本140个8bit的存储空间,就可以存储160个7bit的数据。如果谁现在手上还有NOKIA手机,可以拿起来看看只包含ASCII字符的短信是不是可以输入160个字符,如果短信中包含了非ASCII字符(比如中文),那么所有字符都会变成双字节存储的编码(UCS-2编码),一条短信的内容就恢复成只能发送70个字符。现如今的智能手机大多都支持短信拼接,并不是说单条短信的容量增加了,而是将你编写的超过单条短信容量的短信分成多条发送,运营商也是按多条短信计的。

GB系列字符集

中文环境下如果要正常显示字符,仅依靠ASCII字符集是不行的,因此我们国家制订了一系列的国标(GB),其中就包括GB2312、GB13000、GBK、GB18030......,最新的标准是GB18030,包含70244个字符。

Unicode字符集

Unicode字符集由多语言软件制造商组成的统一码联盟(Unicode Consortium)与国际标准化组织的ISO-10646工作组制订,为各种语言中的每个字符指定统一且唯一的代码点,以满足跨语言、跨平台转换和处理文本的要求。中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2编码,它用两个字节来编码一个字符, 比如汉字"一"的编码是0x4E00。事实上Unicode对汉字支持不怎么好,这也是没办法的,简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,所以Unicode只能排除一些几乎不用的汉字,好在GB2312字符集中常用的简体汉字也不过6763个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符。

Unicode代码点范围为0x00x10FFFF,共计1114112个代码点,划分为编号016的17个字符平面,每个平面包含65536个代码点。其中编号为0的平面最为常用,称为基本多语种平面(Basic Multilingual Plane, BMP);其他平面则称为辅助语言平面。

为了描述一个代码点,可以采用U加十六进制整数的方法。比如,U+0041表示英文大写字母A,U+4E00表示汉字”一”。

编码

关于编码方式,当然可以采用类似ASCII字符集的编码方式——代码点等值转换法(这是我自己起的名字)。既然Unicode代码点的值的范围是0~0x10FFF,那么可以用一个21bit的编码单元来编码,直接把代码点等值转换成21bit的二进制序列。

但是这存在一个空间使用的问题,例如对于使用英语的人而言,ASCII基本可以满足使用。如果使用ASCII码,只需要1个字节来存储字符,但是若使用刚才的思路,需要将近3个字节来存储,这显然是浪费空间的。

如果需要支持的字符集再少一些,仅支持编号0的平面,那至少也有65535个字符,需要16bit的空间(2字节)来存储一个字符,即UCS-2编码,这种编码用来存储ASCII字符也是一种浪费。

Unicode在很长一段时间内无法推广,直到互联网的出现,为解决Unicode如何在网络上传输的问题,于是面向传输的众多 UTF(UCS Transfer Format)标准出现了,顾名思义,UTF-8就是每次8个位传输数据,而UTF-16就是每次16个位。UTF-8就是在互联网上使用最广的一种Unicode的实现方式,这是为传输而设计的编码,并使编码无国界,这样就可以显示全世界上所有文化的字符了。

UTF-8

UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度,当字符在ASCII 码的范围时,就用一个字节表示,保留了ASCII字符一个字节的编码做为它的一部分,注意的是Unicode一个中文字符占2个字节,而UTF-8一个中 文字符占3个字节)。从Unicode到UTF-8并不是直接的对应,而是要过一些算法和规则来转换。

Unicode符号范围(十六进制) UTF-8编码方式(二进制)
0000 0000-0000 007F 0xxxxxxx
0000 0080-0000 07FF 110xxxxx 10xxxxxx
0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

举个例子:
还是用中文“一”,其Unicode值为0x4E00,落在0800-FFFF的范围内,事实上中文基本上都在这个区域。0x4E00的二进制表示为01001110 00000000,转换成UTF-8就是11100100 10111000 10000000,对应的十六进制表示是0xE4 0xB8 0x80。

UTF-16

UTF-16的编码单元是16bit,对于每个代码点,采用1个或者2个编码单元来表示,因此这是一个变长表示。

UTF-32

UTF-32采用代码点等值转换法,将每个代码点编码为1个32bit的编码单元(四字节),因此空间效率较低,不如其它Unicode编码应用广泛。

工具推荐

这里有个网站提供的转码效果非常好,比起某些站长工具更标准。

字符编码些许事_第1张图片
Paste_Image.png

上图是使用该网站查找中文字符“一”的结果,可以看到其Unicode值为U+4E00,UTF-8编码为0xE4 0xB8 0x80,在URL中需要转码为%E4%B8%80,在js脚本中则是\u4e00......。

举几个栗子

有道翻译

用有道翻译的API来做演示,我们通过API获取单词"word"的中文翻译。

GET http://fanyi.youdao.com/openapi.do?keyfrom=WoxLauncher&key=1247918016&type=data&doctype=json&version=1.1&q=word

返回的JSON如下所示:

{
  "translation": [
    "词"
  ],
  "basic": {
    "us-phonetic": "wɝd",
    "phonetic": "wɜːd",
    "uk-phonetic": "wɜːd",
    "explains": [
      "n. [语] 单词;话语;消息;诺言;命令",
      "vt. 用言辞表达",
      "n. (Word)人名;(英)沃德"
    ]
  },
  "query": "word",
  "errorCode": 0,
  "web": [
    {
      "value": [
        "单词",
        "字",
        "字 (计算机)"
      ],
      "key": "word"
    },
    {
      "value": [
        "构词法",
        "造词法",
        "词性转换"
      ],
      "key": "Word Formation"
    },
    {
      "value": [
        "关键字",
        "中心词",
        "关键词"
      ],
      "key": "key word"
    }
  ]
}

返回的内容包含中文,从响应头我们可以看到返回的JSON使用了UTF-8编码:

字符编码些许事_第2张图片
Paste_Image.png

用Wireshark抓包看看具体内容:

字符编码些许事_第3张图片
Paste_Image.png

如上图所示,translation这个key对应的数组内容应该是"词",所以我们看到高亮区域的内容是22 E8 AF 8D 22,0x22对应ASCII字符",0xE8 0xAF 0x8D正是中文的UTF-8编码。

ONE·一个

这个API是通过抓包抓出来的,谁让他们不走https呢?

GET http://v3.wufazhuce.com:8000/api/reading/index

返回数据太多,仅截取一小段进行分析。

{
  "res": 0,
  "data": {
    "essay": [
      {
        "content_id": "2176",
        "hp_title": "软糖| “白日梦” _ 初夏的味道",
        "hp_makettime": "2017-04-03 06:00:00",
        "guide_word": "我们每周会选择一个主题,由七个作者绘制不同风格的短篇漫画,每天一幅。",
        "start_video": "",
        "author": [
          {
            "user_id": "7742828",
            "user_name": "双麒_宋 ",
            "desc": "因爱而画,美好的作品产生于最压抑的欲望。",
            "wb_name": "",
            "is_settled": "0",
            "settled_type": "0",
            "summary": "因爱而画,美好的作品产生于最压抑的欲望。",
            "fans_total": "574",
            "web_url": "http://image.wufazhuce.com/FoPpyeue8ajoRlZ4Fy39a56o4NO-"
          }
        ],
    ......
    }
......
}

返回的内容包含中文,但从响应头我们看不到返回的JSON使用了什么编码格式:

字符编码些许事_第4张图片
Paste_Image.png

用Wireshark抓包看看具体内容:

字符编码些许事_第5张图片
Paste_Image.png

如上图所示,这个API请求返回的JSON数据输出的是中文的Unicode转义字符,这其实也是JS对中文的标准处理方式,猜测后台可能是NodeJS实现的。

我是咕咕鸡,一个还在不停学习的全栈工程师。
热爱生活,喜欢跑步,家庭是我不断向前进步的动力。

你可能感兴趣的:(字符编码些许事)