常用编码说明-GB2312

2.5.1 GB2312编码
2.5.1.1 GB2312介绍
GB2312是汉字字符集和编码的代号,中文全称为 “信息交换用汉字编码字符集” ,由中华人民共和国国家标准总局发布,一九八一年五月一日实施。GB2312 字符集 (character set) 只收录简化字汉字,以及一般常用字母和符号,主要通行于中国大陆地区和新加坡等地。GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
2.5.1.2 GB2312编码结构
GB2312 将所收录的字符分为 94 个区,编号为 01 区至 94 区;每个区收录 94 个字符,编号为 01 位至 94 位。GB2312 的每一个字符都由与其唯一对应的区号和位号所确定。
GB2312编码的范围:高字节范围是0XA1-0XFF,低字节范围是0XA1-0XFF。GB2312 原始编码 (encoding) 是对所收录的每个字符都用两个字节 (byte) 表示。第一字节为 “高字节”,由字符的区号值加上32 而形成;第二字节为 “低字节”,由字符的位号值加上 32 而形成。在区位号值上加 32 的原因大慨是为了避开低值字节区间。由于 GB2312 原始编码与ASCII 编码的字节有重叠,现在通行的 GB2312 编码是在原始编码的两个字节上各加128 修改而形成,如果不另加说明,GB2312 常指这种修改过的编码。
例如:汉字 “啊” ,编号为 16 区 01 位。
原始编码:高位字节为16+32=48,16进制为0X30;低位字节为1+32=33,16进制为0X21。所以它的原始编码为 0x3021。
通行编码:高位字节为16+32+128=176,16进制为0XB0;低位字节为1+32+128=161,16进制为0XA1。所以它的通行编码为 0xB0A1。

2.5.1.3 GB2312字符集的区位分布表
常用编码说明-GB2312_第1张图片

你可能感兴趣的:(编码,http)