同花顺财经-财务数据爬取思路详解-python爬虫

同样的开头,近日,群友在讨论问题的时候发来一链接,询问如何抓取个股页面上财务指标,好奇心旺盛的博主立马打开网页研究了一番。
网址如下:http://stockpage.10jqka.com.cn/600196/finance/#view
我们的目标是爬取红框中数据。

财务报表

个股数量这么多,我们就以复星医药为例(博主看好这家公司)
首先,进行常规工作,分析页面源码,解析报文信息。页面源码就不上图了,大家可以自行查看一下,很简洁,一点数据都没有。
那么,我们就用开发者工具研究一下。
加载完成后页面

看了上图,我们可以判定出来,这是个JS动态加载的网页。新手的思路是利用selenium的webdriver,这种方法我不多说,效率低下,且相对粗暴。

另外一种思路,相信各位根据上图也能才出来,同花顺财经提供了导出功能,而且把URL也提供了,大家自行修改url中的type和code即可获取个股下载链接,回头整合一下即可。

ok,页面源码分析完毕,我们往报文方向看看,博主试着点击了下按年度,看后台报文如何。


页面加载报文

参数

完美,一个请求出来了,数据来源肯定是在这个请求中,可是我瞅了瞅报文,发现是这家伙就获取了一个空的img,其他啥都木有!
不对,肯定不对。数据肯定存在一个来源,那么我们继续祭出chrome开发者工具,看这个请求的背后到底执行了哪些js。


js执行过程

啊哈!啊哈!啊哈!众里寻他千百度,蓦然回首,那人却在,灯火阑珊处!
同志们,这个setChartData名字一看,妥妥的设置数据呀,看来一切数据的源头都在这个js里面。
此处j省略js研究过程N字。。。
一切的源头既然找到了,那么数据们,请到我的碗里来!
上效果图


数据

2022年7月,新增了API实际请求地址 O(∩_∩)O哈哈~
API接口地址如下:
https://basic.10jqka.com.cn/api/stock/finance/{stock}_main.json

好的爬虫er必须也得有一颗前端的心~
后记:数据抓取---》数据分析---》量化策略~~妥妥哒
|---》精准营销~~萌萌哒
注:未经许可 不得转载。
原文链接:http://www.jianshu.com/p/3c6952ad9219

你可能感兴趣的:(同花顺财经-财务数据爬取思路详解-python爬虫)