中文编码

平时经常出现中文编码,总是搞不清楚,我梳理并记录一下,不用那么深入就好了,哈哈

GB2312

1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。

GBK

1995年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库,并涵盖了原Unicode中所有的汉字。

GB18030

2006年5月实施,该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。 它是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。

总结: 按照程序员的称呼,GB2312、GBK 到 GB18030 都属于双字节字符集。按照老百姓的说法,GB18030最全,其次是BGK,字符最不全的就是GB2312了。


下面我引用一篇文章里面的内容,网址如下:https://www.cnblogs.com/MakeView660/p/9181826.html

  • 中国人民通过对 ASCII 编码的中文扩充改造,产生了 GB2312 编码,可以表示6000多个常用汉字。
  • 汉字实在是太多了,包括繁体和各种字符,于是产生了 GBK 编码,它包括了 GB2312 中的编码,同时扩充了很多。
  • 中国是个多民族国家,各个民族几乎都有自己独立的语言系统,为了表示那些字符,继续把 GBK 编码扩充为 GB18030 编码。
  • 每个国家都像中国一样,把自己的语言编码,于是出现了各种各样的编码,如果你不安装相应的编码,就无法解释相应编码想表达的内容。
  • 终于,有个叫 ISO 的组织看不下去了。他们一起创造了一种编码 UNICODE ,这种编码非常大,大到可以容纳世界上任何一个文字和标志。
  • UNICODE 在网络传输中,出现了两个标准 UTF-8 和 UTF-16,分别每次传输 8个位和 16个位。

你可能感兴趣的:(中文编码)