事情起因
作为一名业余python coder, 在上手scrapy之后, 爬过amazon, 豆瓣, 爬过国内外各种网站数据, 熟练运用scrapy.Request和scrapy.FormRequest, 已经很久没有碰到问题, 一直到今天...
要抓取的是这个链接下的公司信息:https://www.expolightingamerica.com/es-mx/ListaExpositores.html
也就是这些信息:
当我Chrome打开这个链接, 心里的想法是so easy, 即刻用Network模块分析了下信息:
发现这个链接打开之后只是请求一些基本信息, 并没有包含公司信息, 所以公司信息是其他链接下载下来的。我们分析XHR, 发现了请求的来源和数据格式:
开始编写程序
当前环境: windows 10 x64; python 3.8.0
工具: PyCharm
通过命令创建工程, 然后需要重写start_request()函数, 首先复制Request URL, Request Header和Form Data中的信息
发现这个Form Data的格式有点奇怪, 一开始只是觉得多了一个花括号{}, 不管如何把他整理成dict就好了。这边可以对比下之前登录豆瓣的Form Data:
这里需要注意的是一定要注释掉 Content-Length这一行,我自己写过的爬虫程序中, header中的这个Content-Length都是需要注释的, 否则会出现400报错.
然后运行, 报错 400;
想了一下之前有时候会碰到FormRequest POST失败的情况, 切换正常的Request就会成功, 所以我们就多写了一个Request函数。如果使用Request的函数, 那么请求的body就需要用json数据上传, 所以就需要用到json模块.做了如下更改:
FormRequest默认是post方式, 所以不需要写method, 继续执行, 然后发现仍然报错:
400
400
开始检查formdata, 如果把括号去掉呢?
依然:
400
400
这个时候重新回到Chrome使用view source进行核对Form Data:
是一个dict格式, 这个时候, 我写了下form data, 在这里我依然把花括号需要上传的信息:
运行, 依然报错:
400
400
难道不应该加那个花括号{}?去掉试试:
运行,发现Request方法请求成功了.
我这里没有继续研究FormRequest方法失败的原因。前面提到如果复制Request Headers中的信息, 需要注释掉Content-Length, 否则报错: 我们这里实验一下,如果不注释的话结果:
运行:
当然正常情况下,大部分都不会复制整个header, 只要保留user-agent就可以正常请求了, 我们这里试试:
运行:
笔者喜欢复制整个Request Headers中的大部分信息,是因为之前碰到只是用user-agent请求失败的案例.
继续编写代码获取并保存数据:
抓取结果
最后请大家合理使用数据,不滥用爬虫,不滥用数据.