编码 ascii
unicode
utf-8
gbk
机器底层 只认识0 1
计算机开始设计:8bit=1byte
(字节)
0000 0000
每个位置只有0和1, 2**8=256
也就是 0-255
ASCII表只有127个,每个字符一个字节
26个大写字母+26小写字母+10个数字+特殊字符=127个
西方国家127个已经够了,128到255预留给其他国家使用
各国都在将自己语言文字编码,ISO组织看不下去了,unicode应运而生
unicode又叫万国码,设计占用2个字节(不管什么字符,都是2字节)2**16
0-65535
cmd
输入 chcp
活动代码页: 936 -->cp936 -->gbk
在python3中:所有的字符串都是unicode,其他以utf-8编码
s='中文' #unicode
b=s.encode('utf8') #unicode-->utf8 每个汉字三个字节
# b'\xe4\xb8\xad\xe6\x96\x87' 占用6个字节
# \xe4 16进制
c=s.encode('gbk') #unicode-->gbk 每个汉字两个字节
b'\xd6\xd0\xce\xc4' 占用4个字节
# encode 编码: 看得懂---》看不懂
# decode 解码: 看不懂--->看的懂
#python查看系统编码
import sys
sys.getfilesystemencoding()
sys.getdefaultencoding()