字符集(Character set)

字符编码:是指将计算机的二进制编码与某个抽象字符集合一一对应的规则.

常见字符集名称:ASCII字符集(7bit)、GB2312字符集(2B)、BIG5字符集(2B)、GB18030字符集(4B)、
Unicode字符集等。
计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

[GB2312 字符集]
内容: GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
特点:因为未收录繁体中文字,只在中国大陆和新加坡获广泛使用,


[BIG5 字符集]
由台湾财团法人信息工业策进会和五间软件公司创立,故称大五码。
Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。
尽管Big5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,没有包含日文平假名及片假名字母。


[GB18030 字符集]
内容:GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。

[Unicode字符集(统一码、万国码)]跨语言、跨平台
UTF-32:4B,UTF-16:2B,UTF-8:1B-4B 可变长度(前缀码)

[UTF-8(前缀码)设计原理]
# 字节字符的最高有效比特永远为0。
# 多字节串行中的首个字符组的几个最高有效比特决定了串行的长度。最高有效位为110的是2字节串行,而1110的是三字节串行,如此类推。
# 多字节串行中其余的字节中的首两个最高有效比特为10。

UCS-4编码 UTF-8字节流
U+00000000 – U+0000007F      0xxxxxxx
U+00000080 – U+000007FF     110xxxxx 10xxxxxx
U+00000800 – U+0000FFFF     1110xxxx 10xxxxxx 10xxxxxx
U+00010000 – U+001FFFFF     11110xxx 10xxxxxx 10xxxxxx 10xxxxxx


[HTTP应用]
Accept-Charset/Accept-Encoding/Accept-Language/Content-Type/Content-Encoding/Content-Language

在HTTP中,与字符集和字符编码相关的消息头是Accept-Charset/Content-Type,另外主区区分Accept-Charset/Accept-Encoding/Accept-Language/Content-Type/Content-Encoding/Content-Language:

Accept-Charset:浏览器申明自己接收的字符集,这就是本文前面介绍的各种字符集和字符编码,如gb2312,utf-8(通常我们说Charset包括了相应的字符编码方案);

Accept-Encoding:浏览器申明自己接收的编码方法,通常指定压缩方法,是否支持压缩,支持什么压缩方法(gzip,deflate),(注意:这不是只字符编码);

Accept-Language:浏览器申明自己接收的语言。语言跟字符集的区别:中文是语言,中文有多种字符集,比如big5,gb2312,gbk等等;

Content-Type:WEB服务器告诉浏览器自己响应的对象的类型和字符集。例如:Content-Type: text/html; charset='gb2312'

Content-Encoding:WEB服务器表明自己使用了什么压缩方法(gzip,deflate)压缩响应中的对象。例如:Content-Encoding:gzip

Content-Language:WEB服务器告诉浏览器自己响应的对象的语言。

[注]
http://zh.wikipedia.org/wiki/UTF-8
http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_4.Accept-Charset/Accept-Encoding/Ac

你可能感兴趣的:(character)