python 解决网页文本乱码

python3 解决网页文本乱码

python解决网页乱码,网页乱码有几种:
1.编码的问题如:utf-8, iso, gbk 等等,这些你可以使用python的chardet包去检验它是哪种编码,从而匹配相应的编码格式,就能解决。
2.非编码问题:最近的碰到的,scrapy抓下来的网页,无论怎么匹配编码格式都不正确,chardet结果为None,
这种情况多半是因为,服务器传过来的网页文本是经过压缩的,针对这种情况我提供两种解决办法:
1.使用 python的zilb进行解压,相应的方法去网上找。
2.‘accept-encoding’: ‘gzip, deflate, br’,将请求头里的这个注释掉,accept-encoding是告诉服务器:可以接受怎样的文本格式。因为平时你看到的网页,实际上是浏览器自动解压生成的,在不影响结果的前提下,如果不追求效率、多写方法,把这个弄掉就可以了。

你可能感兴趣的:(python,爬虫,python,爬虫)