GB 18030介绍及其与相关标准的比较-GB 2312

 

GB 18030介绍及其与相关标准的比较

一、标准内容简介
  1、GB 2312
  2、GB13000(附:Unicode规范)
  3、GBK与GB18030-2000

二、GB 18030的优点

摘要:
  2000年3月17日,原国家质量技术监督局和信息产业部联合发布了国家标准GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》。该标准字发布以来,对我国信息产业的发展产生了巨大影响,反响强烈。本文在介绍GB 18030的同时,将其与其它几个在我国广泛采用或有一定影响的标准和规范进行比较。
  GB 18030介绍及其与相关标准的比较
  中国电子技术标准化研究所 陈壮

  20世纪70年代以来,人类进入了信息时代。信息技术已经、并且正在越来越广泛地深入到人类社会的各个领域。利用计算机进行文字处理是对信息技术最广泛的应用。文字编码是计算机处理文字信息的基础,因而编码字符集标准是信息产业最重要的基石。自1980年开始,我国颁布了一系列编码字符集标准和规范,其中最又影响的是下面几个:
1、 GB2312-80《信息交换用汉字编码字符集-基本集》(1980年)
2、 GB 13000.1-93《信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构和基本多文种平面》(1993年)
3、 《汉字内码规范(GBK)》1.0版(1995年)
4、 GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》(2000年)

一、标准内容简介

1、GB 2312
GB 2312-80《信息交换用汉字编码字符集 基本集》于1980年发布。该编码字符集根据GB 2311《信息技术 字符代码结构与扩充技术》(ISO/IEC 2022)提供的扩充技术,通过对GB 1988《信息技术 信息交换用ISO七位编码字符集》(ISO 646,ASCII)所规定C0控制集和G0图形字符集进行替换和扩充,形成双字节编码的新的编码字符集。规定了6763个汉字和682个非汉字图形。
按照GB 2311的规定,图形字符在8位(或7位)代码中应具有由1个或多个8位(或7位)位组(字节)构成的编码表示,而由单个位组表示的每个字符所在的编码图形字符集应是94字符集(0x21~0x7E或0xA1~0xFE)或96字符集(0x20~0x7F或0xA0~0xFF)。如此,每个字符通过n个位组串列表示的编码图形字符集(n>1)应是94n字符集或96n字符集。通过转义字符ESC加上一些参数构成转义序列来指明调用GB 2312汉字字符集,再通过移位功能调用GB 2312中的各个94字符集。(在这94个字符集中,每个汉字字符和非汉字字符各占一个字位,这就是"区位"的由来)。
GB 2312-80《信息交换用汉字编码字符集 基本集》在ISO/IEC 2022编码空间位置如下图
GB2312规定的汉字为常用汉字,包括简化汉字三千余个。由于我国汉字数量巨大(约10万字),我国又陆续增加了六个辅助集。其中,基本集与第二、第四辅助集是简化汉字集,第一(即GB 12345)、第三、第五辅助集是繁体集,且基本集与第一、第二与第三、第四与第五辅助集分别有简、繁体字一一对应关系,(个别简、繁关系为一对多的汉字除外)。第七辅助集汉字的来源是GB13000.1的CJK统一汉字部分,为日本、韩国和台湾地区使用的汉字。七个字符集包含汉字共计约49,000字(简化字和繁体字分别编码)。

Source: 工作文件

你可能感兴趣的:(比较)