关于scrapy中POST请求的那些坑

事情起因

作为一名业余python coder, 在上手scrapy之后, 爬过amazon, 豆瓣, 爬过国内外各种网站数据, 熟练运用scrapy.Request和scrapy.FormRequest, 已经很久没有碰到问题, 一直到今天...

要抓取的是这个链接下的公司信息:https://www.expolightingamerica.com/es-mx/ListaExpositores.html

也就是这些信息:

待抓取信息

当我Chrome打开这个链接, 心里的想法是so easy, 即刻用Network模块分析了下信息:

分析请求

发现这个链接打开之后只是请求一些基本信息, 并没有包含公司信息, 所以公司信息是其他链接下载下来的。我们分析XHR, 发现了请求的来源和数据格式:

请求来源和数据格式

开始编写程序

当前环境: windows 10 x64; python 3.8.0

工具: PyCharm

通过命令创建工程, 然后需要重写start_request()函数, 首先复制Request URL, Request Header和Form Data中的信息

Request URL
Request Headers
POST的信息

发现这个Form Data的格式有点奇怪, 一开始只是觉得多了一个花括号{}, 不管如何把他整理成dict就好了。这边可以对比下之前登录豆瓣的Form Data:

豆瓣Form Data
编写start_requests()函数

这里需要注意的是一定要注释掉 Content-Length这一行,我自己写过的爬虫程序中, header中的这个Content-Length都是需要注释的, 否则会出现400报错.

然后运行, 报错 400;

400报错

想了一下之前有时候会碰到FormRequest POST失败的情况, 切换正常的Request就会成功, 所以我们就多写了一个Request函数。如果使用Request的函数, 那么请求的body就需要用json数据上传, 所以就需要用到json模块.做了如下更改:

两种请求方式对比

FormRequest默认是post方式, 所以不需要写method, 继续执行, 然后发现仍然报错: 

400

400

两种请求都报错

开始检查formdata, 如果把括号去掉呢?

去掉花括号

依然:

400

400

这个时候重新回到Chrome使用view source进行核对Form Data:

使用view source进行核对
View Source下的Form Data信息

是一个dict格式, 这个时候, 我写了下form data, 在这里我依然把花括号需要上传的信息:

重写Form Data

运行, 依然报错:

 400

400

难道不应该加那个花括号{}?去掉试试:

再写Form Data

运行,发现Request方法请求成功了.

Request方法请求成功

我这里没有继续研究FormRequest方法失败的原因。前面提到如果复制Request Headers中的信息, 需要注释掉Content-Length, 否则报错: 我们这里实验一下,如果不注释的话结果:

不注释content length

运行:

不注释content length后报错

当然正常情况下,大部分都不会复制整个header, 只要保留user-agent就可以正常请求了, 我们这里试试:

只保留user-agent

运行:

请求成功

笔者喜欢复制整个Request Headers中的大部分信息,是因为之前碰到只是用user-agent请求失败的案例.

继续编写代码获取并保存数据:

item代码
Spider代码

抓取结果

抓取结果展示

最后请大家合理使用数据,不滥用爬虫,不滥用数据.

你可能感兴趣的:(关于scrapy中POST请求的那些坑)