python爬虫小实战-每日一练#基金网站爬取

今日无聊,于是决定重拾爬虫,作为日常娱乐。
最近新能源比较火,所以决定看看基金行情如何,脑海中想到的第一个网站是天天基金网,那么我们打开这个网站看看能否爬点近期的基金情况作为数据分析。


打开天天基金第一眼看到的是这个列表展示,扫了扫,于是决定今日小任务就是来抓取下这个表单数据。

天天基金的列表页

作为一个菜鸟虫虫,咱们思路得清晰,先分析下后台接口情况。方法很简单,按下F12打开浏览器自带的调试工具,然后点击网页上的翻页按钮,抓取下日志瞅瞅。

chrome浏览器抓包

后台交互很简单,点击preview看下情况。Good!这个圈圈中的请求应该就是我们想要爬取的表单,这个网站反爬机制几乎为零啊。接下来我们进行下一步工作,分析下接口参数。

请求详情

首先是Headers,get请求+params,一目了然。嗯,估摸着这是从思想上已经放弃抵抗的网站,翻页的参数就在链接中,裸奔状态。

Header

O(∩_∩)O,回到调试工具看看参数名字

http://fund.eastmoney.com/Data/Fund_JJJZ_Data.aspx?t=1&lx=1&letter=&gsid=&text=&sort=zdf,desc&page=2,200&dt=1658849281992&atfc=&onlySale=0
请求参数解析

英语四六级证书告诉我,page就是翻页,sort就是排序,dt一看就知道是datetime~那么我们来用postman模拟下请求走一遍。

Postman模拟

看到postman的返回码200。 OK,稳了~


待后续

你可能感兴趣的:(python爬虫小实战-每日一练#基金网站爬取)