关于Unicode,utf-8,utf-16 on mac

Unicode

说到Unicode的起源就要先谈起ASCII。
ASCII使用一个字节(8位)进行存储,8位一共可以表示256个字符,而ASCII只使用了其中的128位,即0~127位,这128位里面包括了常用的英文字符以及标点符号。
现在虽然解决了英语的表示问题,但还有一些语言不使用英语的字符表示,因此它们使用剩下的128位进行表示,即128~256位,后面的128位也被称为扩展字符集。
对于亚洲的一些国家,如中国的汉字用256位也无法表示完整,因此会采用两个字节进行存储表示,一开始的时候要求两个字节都需要大于127来表示一个汉字,这时的汉字编码方案被称为GB2312。然而很快用两个字节也不够存储汉字,因此允许只需要第一个字节大于127即可表示一个汉字,扩展后的这种汉字方案就是GBK标准。
OK,不同语言的编码方案似乎已经确定下来了,但还有一个问题:
不同语言的编码方案不一样,那不同国家之间如何通过ASCII进行交流?
因此,人们希望通过unicode实现所有文字的统一编码,每一个文字都有独一无二的unicode码。
unicode使用四个字节(两个十六进制表示一个字节)来存储文字的。
比如常见的U+表示法:

'U+00000024' -> 'U+0024' -> '$'
'U+0001F604' -> 'U+1F604' -> '��'

(似乎CSDN markdown不支持emoji,只能用:smile:来代替U+1F604显示的emoji表情)
当使用两个字节的时候,unicode所处的平面也就是BMP平面,包含了基本的文字符号。
可能平时常见的是转义字符的unicode,如\U,\u,\x。
\U后面接8位十六进制, 不足八位的时候根据使用环境看是否可以省略前面的0,\u接4位十六进制,\x接2位十六进制。
但是unicode自身也存在许多问题:
1. 如何判定这是一个unicode码还是一个ascii码?换言之,如何判定四个字节表示一个符号还是四个符号?
2. 在表示传统字节的时候,如ASCII部分的时候,正常来说只需要一个字节,而用unicode进行表示的时候,前三个字节都必须为0,这就造成了空间的极大浪费。
参考资料:Unicode 维基百科

UTF-8

由于以上unicode的问题,一开始unicode的推广受到了阻塞。
但是人们想到可以通过对Unicode进行一种变长的编码方式进行存储,这就是UTF-8。(UTF-8也是一种前缀码,比如哈夫曼编码)

转换规则

在ASCII码的范围,用一个字节表示,超出ASCII码的范围就用字节表示,这就形成了我们上面看到的UTF-8的表示方法,这様的好处是当UNICODE文件中只有ASCII码时,存储的文件都为一个字节,所以就是普通的ASCII文件无异,读取的时候也是如此,所以能与以前的ASCII文件兼容。

大于ASCII码的,就会由上面的第一字节的前几位表示该unicode字符的长度,比如110xxxxx前三位的二进制表示告诉我们这是个2BYTE的UNICODE字符;1110xxxx是个三位的UNICODE字符,依此类推;xxx的位置由字符编码数的二进制表示的位填入。越靠右的x具有越少的特殊意义。只用最短的那个足够表达一个字符编码数的多字节串。注意在多字节串中,第一个字节的开头”1”的数目就是整个串中字节的数目。

ASCII字母继续使用1字节存储,重音文字、希腊字母或西里尔字母等使用2字节来存储,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。

在UTF-8文件的开首,很多时都放置一个U+FEFF字符(UTF-8以EF,BB,BF代表),以显示这个文本文件是以UTF-8编码。

unicode to utf-8 example from 维基百科
值得注意的是,utf-8的一个字节表示跟ASCII码是相同的。

UTF-16

跟UTF-8相似,UTF-16也是一种unicode的编码实现方式,主要的区别是转换规则的不同。
unicode to utf-16 example from 维基百科
utf-16两字节的表示方式跟unicode是相同的,但却无法跟ASCII码兼容。

实例:在mac上通过unicode编码输出emoji表情

way 1

说个不切题的方法,在mac上面只要通过快捷键Ctrl+Command+space就能快速调用emoji表情列表直接输入。(下面步入正题)

way 2

直接在终端通过echo命令打印unicode编码,由于CSDN markdown不支持emoji,所以截图:

way 3

如果我想要在mac上直接输入unicode码,那就要开启mac的Unicode Hex Input了。
打开Preference里面的keyboard,点击input source然后将Unicode Hex Input加入(善用搜索功能)。
接着在终端上按住option键的同时输入四位的unicode码,终端上就会显示对应的符号了。参考stack overflow链接:how do you echo a 4 digit unicode character in bash
OK,四位的unicode码的键盘输入解决了,但如果我想输入不只两个字节的unicode码呢?
首先,要对mac的Unicode Hex Input有一个认识,即它的输入是按照UTF-16进行编码的。
一开始的时候输入四位unicode码能正常输出正是因为UTF-16两个字节的表示跟Unicode是完全相同的,因此,如果,我们想要输出emoji表情,必须先把emoji的unicode码转换成UTF-16再通过option输出。
例子参考这个链接:How can I type unicode characters without using the mouse?
但是,不建议在终端上进行显示,因为终端显示的编码方式默认是UTF-8,因此通过UTF-16显示的emoji不会在终端上显示。(随便找个输入框进行测试)
通过locale命令可以读取当前的语系并进行export 修改。

way 4

最后,我想在vim里面输入emoji呢?
vim同样提供了对emoji的支持,可以先在一般模式下输入:help unicode查看帮助文件,依次按下Ctrl+V u进入unicode的输入模式。
参考链接:how-to-insert-unicode-characters-in-vim

你可能感兴趣的:(unicode,utf-8)