如何用Python爬取中国人民银行

如何用Python爬取中国人民银行

先上网址:http://www.pbc.gov.cn/
我们可以看看这个网站的页面源代码如何用Python爬取中国人民银行_第1张图片
咋一看好像没有什么问题,想要的数据里面都有,那么我们在用Python来请求一下,却得到这个结果~ _ ~
如何用Python爬取中国人民银行_第2张图片
可以看到这里用到了sojson,这段js可能是生成了什么需要的数据,我们可以用webstorm调式一下这段js
如何用Python爬取中国人民银行_第3张图片
在这里插入图片描述
可以知道这个地方应该就是主要的加密地方了,调式一下发现,这里实际上就是在拼接一个url,输出应该就是这个
在这里插入图片描述
这个url好像有点眼熟的样子,来到浏览器打开F12看看,清cookie,重新请求
在这里插入图片描述
这里也有一个类似的url,就是参数不同,也就是说,这个网址实际做了两次请求,那我们再试着把这段生成的url放到浏览器上运行,是可以访问到的,再通过F12,把请求头的信息都拿下来,在Python整理一下重新请求,走你~如何用Python爬取中国人民银行_第4张图片
为什么还是返回这个结果,走到这里真是想**几句,仔细的查看几下之后,确认我的参数没有错误,cookie值也是正确的,那么原因就是他的二次请求,话说能不能直接跳到第二次那里呢,这里我尝试了用post请求了原网址链接如何用Python爬取中国人民银行_第5张图片
成功返回数据,虽然具体操作有一些取巧的成分,但是想想前面做的js分析居然全都没怎么用到,不过这个网站也着实让我涨了不少姿势,本文就说到这里吧,对于之前生成的链接为何无法获取源码,大佬们可以在评论区说一下你的观点。

你可能感兴趣的:(技术)