字符编码,Unicode,UTF-8 的关系

Unicode

Unicode 是通用的字符编码标准,可以支持世界上所有的字符,最新版是2017年7月20发布的 Unicode® 10.0.0。版本10增加了8,518个字符,总共有 136,690 个字符。

Unicode 和 UTF-8、UTF-16、UTF-32 的关系

Unicode

Unicode 是一种编码标准,定义了每个字符对应的一个二进制数,只是字符和数之间的对应关系(比如 A 对应 0041)。但没有定义怎样把这个二进制数保存起来。Unicode 需要保存或者传输的时候,需要确定 Unicode 的具体实现。The Unicode Standard 支持三种编码方式(UTF-8、UTF-16、UTF-32)。UTF 的全称是 Unicode Transformation Format。

UTF-8

UTF-8 把所有的 unicode 字符转换到不定长度 byte 的编码。Unicode 中对应 ASCII 的字符,与 ASCII 字符编码一样,只用一个 byte,比较省空间。

UTF-16

常用的字符被编码到 16 bit 空间,其他不太常用的字符编码到 32 bit 空间。

UTF-32

所有字符被编码到 32 bit 空间。速度最快,占用空间最大。

你可能感兴趣的:(字符编码,Unicode,UTF-8 的关系)