Python爬虫乱码问题之encoding和apparent_encoding的区别

Python爬虫乱码问题之encoding和apparent_encoding的区别_第1张图片
encoding是从http中的header中的charset字段中提取的编码方式,若header中没有charset字段则默认为ISO-8859-1编码模式,则无法解析中文,这是乱码的原因

apparent_encoding会从网页的内容中分析网页编码的方式,所以apparent_encoding比encoding更加准确。当网页出现乱码时可以把apparent_encoding的编码格式赋值给encoding。

你可能感兴趣的:(Python,爬虫)