GB2312, GBK

GB2312GBK

 

对于中文来说,通常都是用GB2312字符集或者GBK字符集。GB2312最初指的是一个编码字符集,其中包含了ASCII所包含的英文字符,同时加入了6763个简体汉字以及其他一些ASCII之外的符号。GB2312字符集同样可以使用UTF-8或者UTF-16对字符进行编码,但是一般都是用GB2312字符集自己的编码方案,即直接使用一个字符在GB2312中的编号作为存储值(与UTF-32的做法类似),平时口头说的GB2312同时指的是其字符集和字符编码。

 

GBK是GB2312的后续标准,添加了更多的汉字和特殊符号,类似的是,GBK也是同时指他的字符集和他的编码。Windows操作系统默认就是使用GBK字符集和编码。(如果使用的是繁体字的操作系统,那么通常为Big5)。

 

现如今,越来越多的网站都采用了UTF-8的编码方式,即页面中的meta标签写的charset=UTF-8。

你可能感兴趣的:(NLP,learning,machine)