web java 解决中文乱码

  1. 字符集与编码方法

      

字符集 字符编码 对应语言
ASCII ASCII 英语
ISO8859-1 ISO8859-1 拉丁字母
GB2312 GB2312 简体中文
GBK GBK 中文
GB18030 GB18030 简体中文
Big5 Big5 繁体中文
Unicode UTF-8 多国语言

    

  •      ASCII 

      ASCII使用七个比特进行字符编码,最多可以表示的字符数据为128个字符,这些字符包括了大小写英文字母、阿拉伯数字、标点符号、控制字符和其他符号。每个字符用一个字节表示,每个字节的最高位为0。例如:字符“A”在用ASCII码中用2进制的“01000001”表示,换成十进制表示65.

 

  •     ISO8859-1

         ISO8859-1,又称Latin-1,是在ASCII的基础上,使用8比特编码,新增了一些字符。新增的字符主要用来支持部分欧洲国家所使用的语言,例如:德语、葡萄牙语和西班牙语等。也就是说,ISO8859-1兼容ASCII

  •     GB2312

       1981年,开始使用国家标准《信息交换用汉字编码字符集-基本集》,简称GB2312。

       GB2312使用双字节编码,一共包含了7445个字符,包括了6763个常用的汉字。对汉字分成了两级,一级为常用字,有3755个字符,按照拼音排序,二级为次常用字,包括3008个字符,按照部首排序。

      GB2312主要应用在中国大陆和新加坡,几乎所有的中文系统和国际化的软件支持GB2312,同时兼容ASCII。

      

  •     GBK

       在GB2312的基础上又进行扩充。在1995年,推出《汉字内码扩展规范》,简称GBK。

       GBK收录了21886个汉字和图形符号,其中汉字21003个,图形符号883个,并且向下与GB2312编码完全兼容GBK

       在GB2312的基础上又进行扩充。在1995年,推出《汉字内码扩展规范》,简称GBK。

       GBK收录了21886个汉字和图形符号,其中汉字21003个,图形符号883个,并且向下与GB2312编码完全兼容

 

  •     GB18130

      GB18130-2000编码标准是由信息产业部和国家质量技术监督局在2000年联合发布的,GB18130编码标准是在原来的GB2312和GBK编码标准的基础上进行扩充,增加了一些新的字符,特别是一些少数民族使用的字符。它的主要目的是为了解决一些生,偏,难字等问题

 

  • BIG     

       BIG5又称为大五码,是针对繁体汉字的汉字编码,目前广泛应用在台湾、澳门和香港地区的电脑系统中。BIG5也是双字节编码,一共收录了5401个常用字和7652个次常用字。

  • Unicode

       1991年Unicode把世界上几十种文字整合在一个字符集中,Unicode中的每个字符都有唯一的数字进行表示。Unicode是由Unicode组织进行相关标准制定与推广

      现在Unicode已经被广泛的使用,JAVA语言、MS Windows XP 和 MS Office等软件内部都使用了Unicode作为内码

  • UTF-8

       UTF-8是Unicode/UCS Transformation Format(统一字符集/统一字符编码转换格式)的缩写,UTF就是Unicode的一种字符编码(转换)方法。Unicode组织推荐使用UTF-8和UTF-16,UTF-8是一种变长的编码方式,也是当前Unicode最常用的一种字符编码(转换)方法。

      

你可能感兴趣的:(java,Web,扩展,语言,图形,transformation)