字符集编码和编码字符集


字符集

  • 字符的集合,没有编号

编码字符集(charset)

  • 为字符集的每一个字符指定一个编号,即代码点(code point) 。

字符集编码(encoding)

  • 字符的code point(码点)不一定是该字符在电脑中存储中使用的值。字符在电脑中存储的值由字符集编码决定。

  • code unit(代码单元或码元)仅仅针对字符集编码,是字符集编码中对一个字符编码后的最小存储单元。在UTF-8中是一个字节,因为UTF-8在将字符编码为1个,2个,3个,或者4个。在UTF-16中,代码单元变成了两个字节,因为在UTF-16中字符可以被编码为2个或者4个字节(也就是java里面的1个或者2个char)。

具体的编码字符集和字符集编码

编码字符集 字符集编码
Unicode UTF-8,UTF-16,UTF-32
GB2312 GB2312
GBK GBK
ASCII (ISO-646) ASCII(ISO-646)
扩展的ASCII 扩展的ASCII(ISO-8859-*),例如Latin-1(ISO-8859-1)

其他

  • 创建了一张xml页面,声明encoding为UTF-8,和html中的charset一样,只是告诉程序,页面使用了什么字符集编码(html中的charset其实是指字符集编码)。但是这张页面到底用了什么字符集编码,是不一定的。所以最好要求页面实际使用的字符集编码和encoding声明的一样。

  • windows操作系统在保存页面时,会使用默认的编码方式ANSI。简体中文使用字符集编码是GBK。

你可能感兴趣的:(字符集编码和编码字符集)