用notpad++写HTML所遇见的问题

在XHTML、HTML5中使用

 

我们做网页时,如果指定的 Charset 是 GB2312,那么就不应该在网页中出现繁体字,因为 GB2312 标准只有几千个简体的中文字。如果我们的网页编码是 UTF-8,我们就不要指定字符集是 GB2312,因为虽然 UTF-8 编码对应的 UTF-8 字符集包含了 GB2312 的字符,但同一个字符在两个字符集中的编号不一样。

下面这些编码方式,比如:中文 GBK ,繁体中文 Big5,日文 EUC-JP,韩文 EUC-KR 等,每种语言的编码方式是不同的,所以需要使用charset为网页提供了一种编码方式,否则页面很可能出现乱码。

UTF-8 是国际字符编码,也就是独立于任何一种语言,任何语言都可以使用。

UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。GBK包含全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准)UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。比如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。 所以,对于英文比较多的论坛 ,使用GBK则每个字符占用2个字节,而使用UTF-8英文却只占一个字节。UTF8是国际编码,它的通用性比较好,外国人也可以浏览论坛,GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大。

这里有必要简述一下几种中文字体的区别: GB2312,GBK,GB18030。这是市面上GB系列三种中文的编码方式,三者越往后形成越晚,字符越多(后面版本全部兼容之前版本)。GB2312只支持简体,共7445个字符。GBK有21886个汉字字符,支持繁体中文,GB18030就更多,甚至支持一些少数民族文字,是现在非手持跟植入式设备标准。现在仍有很多手持设备是GB2312的标准。这种情况用GB18030解码就会出现错误。

你可能感兴趣的:(网页制作)