JCLpython 笔记:Unicode

除了unicode以外,gbk,gb2312也都是字符集
JCLpython 笔记:Unicode_第1张图片
unicode是一个字符集,也是一个编码规则,统一的编码规则,3个字节表示一个字符,
但是对于生僻的需要4个字节,但是如果都是英文字符才需要1个字节,那就会有浪费,此时各种编码规则就出现了,UTF-8也来了,可变长编码,utf8将字符根据不同大小编码成1-6个字节,常用的英文字符用1个字节,汉字用3个字节,生僻的则使用4-6个字节。
在内存中操作都是unicode,保存在磁盘上用utf-8,无论何种编码方式,如果在网络上传输,或者保存到磁盘上,都需要把str转换成为以字节为单位的bytes;从字符串变成字节,这个过程是编码encode,从字节变回到str,叫做解码decode
JCLpython 笔记:Unicode_第2张图片

你可能感兴趣的:(python,unicode)