字符编码

      ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)是基于拉丁字母的一套字符编码方案。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,用于基于文本的数据。
      我们常见ASCII码的大小规则:0~9<A~Z<a~z。记住几个常见字母的ASCII码大小: “0”为 48;“A”为65;“a”为97。
  在标准ASCII中,其最高位(b7)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。
      从ASCII、 GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼,GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。
      Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode字符集可以简写为UCS(Unicode Character Set)。早期的Unicode标准有UCS-2、UCS-4的说法。UCS-2用两个字节编码,UCS-4用4个字节编码。UTF是“UCS Transformation Format”的缩写,可以翻译成Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据。UTF-8以字节为单位对Unicode进行编码。

你可能感兴趣的:(字符编码)