字符集 | 字符编码 | 对应语言 |
ASCII | ASCII | 英语 |
ISO8859-1 | ISO8859-1 | 拉丁字母 |
GB2312 | GB2312 | 简体中文 |
GBK | GBK | 中文 |
GB18030 | GB18030 | 简体中文 |
Big5 | Big5 | 繁体中文 |
Unicode | UTF-8 | 多国语言 |
ASCII使用七个比特进行字符编码,最多可以表示的字符数据为128个字符,这些字符包括了大小写英文字母、阿拉伯数字、标点符号、控制字符和其他符号。每个字符用一个字节表示,每个字节的最高位为0。例如:字符“A”在用ASCII码中用2进制的“01000001”表示,换成十进制表示65.
ISO8859-1,又称Latin-1,是在ASCII的基础上,使用8比特编码,新增了一些字符。新增的字符主要用来支持部分欧洲国家所使用的语言,例如:德语、葡萄牙语和西班牙语等。也就是说,ISO8859-1兼容ASCII
1981年,开始使用国家标准《信息交换用汉字编码字符集-基本集》,简称GB2312。
GB2312使用双字节编码,一共包含了7445个字符,包括了6763个常用的汉字。对汉字分成了两级,一级为常用字,有3755个字符,按照拼音排序,二级为次常用字,包括3008个字符,按照部首排序。
GB2312主要应用在中国大陆和新加坡,几乎所有的中文系统和国际化的软件支持GB2312,同时兼容ASCII。
在GB2312的基础上又进行扩充。在1995年,推出《汉字内码扩展规范》,简称GBK。
GBK收录了21886个汉字和图形符号,其中汉字21003个,图形符号883个,并且向下与GB2312编码完全兼容GBK
在GB2312的基础上又进行扩充。在1995年,推出《汉字内码扩展规范》,简称GBK。
GBK收录了21886个汉字和图形符号,其中汉字21003个,图形符号883个,并且向下与GB2312编码完全兼容
GB18130-2000编码标准是由信息产业部和国家质量技术监督局在2000年联合发布的,GB18130编码标准是在原来的GB2312和GBK编码标准的基础上进行扩充,增加了一些新的字符,特别是一些少数民族使用的字符。它的主要目的是为了解决一些生,偏,难字等问题
BIG5又称为大五码,是针对繁体汉字的汉字编码,目前广泛应用在台湾、澳门和香港地区的电脑系统中。BIG5也是双字节编码,一共收录了5401个常用字和7652个次常用字。
1991年Unicode把世界上几十种文字整合在一个字符集中,Unicode中的每个字符都有唯一的数字进行表示。Unicode是由Unicode组织进行相关标准制定与推广
现在Unicode已经被广泛的使用,JAVA语言、MS Windows XP 和 MS Office等软件内部都使用了Unicode作为内码
UTF-8是Unicode/UCS Transformation Format(统一字符集/统一字符编码转换格式)的缩写,UTF就是Unicode的一种字符编码(转换)方法。Unicode组织推荐使用UTF-8和UTF-16,UTF-8是一种变长的编码方式,也是当前Unicode最常用的一种字符编码(转换)方法。