编码问题

一.编码的历史

gbk  存了2万个 1995   中文是2个字节,英文为1个字节

gb18030:  存了27000  2000年  中文是2个字节,英文为1个字节

unicode:万国码(国际同一标准)之后又进行改进得到:1 utf-32  一个字符(无论中西)占4个字节

                         2 utf-16  一个字符占2个字节或以上

                         3 utf-8  ;一个英文用ASCII码存,一个中文占3个字节

二.python机制的编码

python2  默认是ASCII  

  更改方法:#--*--encoding=utf-8--*--

python3  默认是Unicode

encode  进行编码转换后返回bytes类型   【o-255】

decode   在解码的同时,会把bytes类型转换为字符型

三.编码间的转换

  都是通过unicde作为中间的桥梁,进行转换,任意编码到unicode是通过decode(解码),从Unicode到其他的编码是通过encode(编码)

 

你可能感兴趣的:(编码问题)