写爬虫过程中的常见问题与错误(持续更新)

requests

错误一:网页出现乱码写爬虫过程中的常见问题与错误(持续更新)_第1张图片

出现乱码的原因是因为网页解码过程中没有设置如何编码,使用如下代码即可:

html = requests.get(url,headers = headers)
html.encoding = 'gbk'#定义编码方式

错误二:InvalidHeader: Invalid return character or leading space in header: User-Agent

对于初学爬虫的小伙伴而言,这非常令人摸不着头脑,我们来看看错误的headers:

headers = {
    'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/#### (KHTML, like Gecko) Chrome##/77.0.#####.90 Safari/########'
}
#这里注释掉了一些数值,防止一些安全问题

其实很难发现问题在哪,但事实上是因为‘ Mozilla’之前多了个空格,把空格删去即可

错误三:requests请求不到解析页面的数据

很多时候我们会发现requests的text内容并不是我们所需要的,这是由于该部分内容是由js文件渲染出来的
我们需要在Network的检查页面中的js文件进行查看response属性,如下图所示
写爬虫过程中的常见问题与错误(持续更新)_第2张图片
发现response中是我们需要获取的内容.
写爬虫过程中的常见问题与错误(持续更新)_第3张图片
我们再通过其Headers的属性,查看我们需要get的url和相应的Headers,如下图所示
写爬虫过程中的常见问题与错误(持续更新)_第4张图片

你可能感兴趣的:(爬虫)