字符集,字符编码和字库的关系

1         字符集

字符集(CHARACTER SET),或称字集,是指字符的集合;字符集种类较多,每个字符集包含的字符个数不同,常见的字符集名称:ASCII字符集、GB2312字符集、GB18030字符集、UNICODE字符集等。

1.1ASCII字符集

上 个世纪60年代,美国有关的标准化组织就出台了ASCII(AMERICAN STANDARD CODE FOR INFORMATION INTERCHANGE:美国信息交换标准码)编码,制定了一套字符编码,只能表示256个符号,主要用于显示现代英语和其他西欧语言。它是现今最通用的 单字节编码系统,并等同于国际标准ISO 10646。

1.2GB系列字符集(GB2312、GB13000、GBK、GB18030)

GB2312 由原中国国家标准总局发布,共收录6763个简体汉字、682个符号,由于GB2312定义的字符集太小,容纳的汉字太少,在UNICODE出台之后,我 国立刻制定了完全兼容的GB13000标准,微软以技术上难以实现为理由,自己搞了一套扩展字符集,也就是GBK,在GB2312基础上定义了包括繁体字 在内的更多汉字,并在WINDOWS简体中文版中加以实施。到了二十世纪末,GBK字符集也不够用了,WINDOWS操作系统将内核改为支持 UNICODE字符集。UNICODE与GB系列字符集不兼容。于是我国政府于2000年3月17日发布的新的汉字编码国家标准GB18030,作为我国 所有非手持/嵌入式计算机系统的强制实施标准,GB18030收录了27484个汉字,不但与UNICODE3.0版本兼容,还与以前的GB字符编码标准 兼容。

2  字符编码与字库

字符集只是文字的集合,不一定适合网络传送、处理。计算机要准确的处理各种字符集文字, 有时须经编码(ENCODING)后才能应用。所谓字符编码是规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编 码”。各个国家和地区在制定编码标准的时候,“字符集”和“编码”一般都是同时制定的。因此,平常我们所说的“字符集”,比如GB2312、GBK等,除 了有“字符的集合”这层含义外,同时也包含了“编码”的含义。对UNICODE字符集的编码称为UTF。目前通用的编码标准有UTF-16小尾序 (LITTLE ENDIAN)、UTF-16大尾序(BIG ENDIAN)和UTF-8变长编码。

字库就是字型库(FONT LIBRARY),其实计算机上显示的每个字符(不管它是哪种语言的),都是一个小的图案。字库就是把这些小的图案以图片的某种形式保存起来,需要显示的 时候还原出来就可以了。在WINDOWS操作系统里的字库存放在系统盘windows/fonts文件夹下,在linux操作系统中字库存放在这/usr /share/fonts/文件夹下。

你可能感兴趣的:(操作系统,嵌入式)