编码

问题1:编码问题

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 14: illegal multibyte sequence

解决方法1:

open('hamlete.txt','r').read()  ==>  open('hamlete.txt','r',encoding='utf-8').read() 

知识点1:

文件存储编码是utf-8,打开文件的时候又没有指定编码,f.read()发现文件中有中文,所以按照gbk来  
试图将解码,但是因为文件本身是utf-8的,所以解码失败。

总结:

unicode 是万国码(是标准)  
utf8 utf16 是unicode的实现方式  
gbk gb2312 是汉字编码
encoding   编码
decoding   解码
utf-8 和utf8区别?

一般是没区别的,就是在MySQL中只能用utf8

conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='123456',db='jobspider', charset="utf8")

你可能感兴趣的:(编码)