中文字符集与编码转换

 
    字符集,windows 又称代码页,  与操作系统的当前字符集项不匹配时,会显示乱码。
           常见的简体中文字符集( windows  代码页 936 )

              GB18030  :
                          1字节 兼容 ascii 字符  
                          2 字节  普通中文  标点符号等
                          4字节   特殊中文以及少数民族文字等;
              GB2312  GBK:都是GB18030的子集  

              BIG5 :    繁体字,独立体系, 与 GB18030 体系不相容  。

   字符编码  
               1. 字符集对应编码,此时字符集 = 字符编码

                     例如:   GB18030  , gbk , ansi  .... , 其中 ansi 在windows中 等效于操作系统使用的字符集编码  。
             

              2.  通用编码, 基本把世界上的所有语言都编码了:

                       UTF8:   单个字长度 1/2/3/4/5/6 字节, 0 表示终结。  
                       utf16(unicode): 单个字长度 2/4 字节,  连续2个0 表示终结。 

                       utf32:  没用过,应该是  单个字长度4 字节,  连续4个0 表示终结。 

       

 当服务端/客户端( 或介质输入输出) 编码不一致时,必须进行转换, 所以 程序必须知道对侧的编码 , 这是发生乱码最常见的原因,另外也有字符集与操作系统语言环境不相容导致乱码。

你可能感兴趣的:(中文乱码,字符集,字符编码)