关于编码

编码的三种大类

ANSI(GBK)

ANSI即为GBK编码以前是GB2312,GBK和UTF8为最常用的编码格式,均无BOM头。BOM头就是文本文件中几个并不表示任何字符的字节。

UTF8编码

UTF8编码有2种,无BOM头和有BOM头2种。
UTF8的BOM头为 0xEF 0xBB 0xBF

Unicode编码

Unicode编码有2种:Ucs-2 Big Endian编码和Ucs-2 Little Endian编码,即大端和小端。这两种编码均为有BOM头的格式。
Unicode大端模式为 0xFE 0xFF
Unicode小端模式为 0xFF 0xFE

ASCII编码

标准ASCII是128个,范围是0x00~0x7F(0000 0000~0111 0000),最高位为0。也有一个扩展ASCII码规则,把最高位也用上了,变成256个,但是这个扩展标准争议很大,没有得到推广,应该以后不会得到推广。因为无论是GBK还是UTF8,如果ASCII字符编码最高位能为1都会造成混乱无法解析。

你可能感兴趣的:(关于编码)