coding--字符编码简单理解

Ascii编码:单字节编码;

Gb2312编码:用于汉字编码,双字节,一个表示区码,一个表示位码;

GBK编码:ASCII编码和GB2312的合集;

GB18030编码:GBK的超集,兼容GBK,变长,124字节;

Unicode(统一码、万国码、单一码)为每种语言中的每个字符设定了统一并且唯一的二进制编码,每个字符的二进制值从单个字节到4个字节,为方便unicode存储,出现UTF-8、UTF-16、UTF-32编码。

UTF-8编码:unicode的实现方法,每个字符自动选择编码长度的表示方法,对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

BASE64编码:采用64个基本的ASCII码字符对数据进行重新编码,将3个字节编码为4个字节,编码后方便网络传输,BASE64的源码可以是任意码流,跟前面的字符编码没有直接关系。

你可能感兴趣的:(coding--字符编码简单理解)