股票爬虫(java爬取东方财富)

文章目录

  • 股票爬虫(第一篇:分析)
    • 1 前言
    • 2 分析网页
      • 第一步:进入到需要爬取信息的页面
      • 第二步:打开Chrome的调试工具(F12)
      • 第三步:看看网页会给你发什么消息
        • 刷新网页,等待下图不动了再操作
        • 在此页面点击日K
        • 观察控制台
        • 选取
        • 逐步、逐个分析,直到……
        • 直到你找到想要的信息
          • 找到了!
      • 第四步:查看请求头,并分析URL
        • URL分析
        • 最后清洗出来的URL是这样的
  • 股票爬虫下一篇:编写代码,开始贪婪地获取吧

股票爬虫(第一篇:分析)

1 前言

​ 本教程仅为学习研究,请勿拿去干坏事。博主是大数据分析专业的,当前还在做毕设。数据源为东方财富网的api,主要爬取日K、周K、月K,以及分钟K线。

2 分析网页

​ 作为程序员,分析是家常便饭,你得先去看看网页给你什么了

第一步:进入到需要爬取信息的页面

股票爬虫(java爬取东方财富)_第1张图片

股票爬虫(java爬取东方财富)_第2张图片

股票爬虫(java爬取东方财富)_第3张图片

这就是我们要分析的页面

股票爬虫(java爬取东方财富)_第4张图片

第二步:打开Chrome的调试工具(F12)

股票爬虫(java爬取东方财富)_第5张图片

第三步:看看网页会给你发什么消息

一个网页先给你发一堆消息,发完之后就会停下,那么这时候我们就要开始操作了

刷新网页,等待下图不动了再操作

以下是代表网页给你发送的信息资源

股票爬虫(java爬取东方财富)_第6张图片

在此页面点击日K

股票爬虫(java爬取东方财富)_第7张图片

观察控制台

股票爬虫(java爬取东方财富)_第8张图片

选取

鼠标点一下给你发的新内容,会出现这个

股票爬虫(java爬取东方财富)_第9张图片

你把它拉开,直到覆盖所有

股票爬虫(java爬取东方财富)_第10张图片

然后你就会看到以下7个内容

股票爬虫(java爬取东方财富)_第11张图片

逐步、逐个分析,直到……

我们先看get开头的,因为这个是向服务的请求(分get和post方法)

点进去分析一波

股票爬虫(java爬取东方财富)_第12张图片

你会发现,好家伙,我要的是日K,服务器给我发的啥

股票爬虫(java爬取东方财富)_第13张图片

很明显不是这个,那么我们换一个get看一看

直到你找到想要的信息

股票爬虫(java爬取东方财富)_第14张图片

找到了!

第四步:查看请求头,并分析URL

股票爬虫(java爬取东方财富)_第15张图片

URL分析

http://push2his.eastmoney.com/api/qt/stock/kline/get?cb=jQuery11240455198475929842_1619140536920&fields1=f1%2Cf2%2Cf3%2Cf4%2Cf5%2Cf6&fields2=f51%2Cf52%2Cf53%2Cf54%2Cf55%2Cf56%2Cf57%2Cf58%2Cf59%2Cf60%2Cf61&ut=7eea3edcaed734bea9cbfc24409ed989&klt=101&fqt=1&secid=0.000001&beg=0&end=20500000&_=1619140536941

把以上链接可以直接放到浏览器地址栏上面

image-20210423092214861

他会给你返回一大堆数据(这类数据是以Json的形式给你的)

Tips:如果你显看的眼累,可以→浏览器调试工具F12→Network→刷新网页→点击资源包→preview

这里什么信息是对我们有用的呢咱们可以用排除法,get方法是用&分割参数的,那么咱们可以看到上面的URL有cb、fields1、fields2、ut、klt、fqt、secid(这明显就是我的股票代码)、beg、end

排除法:一个一个参数的删除,看他还会不会给你那些信息(你也可以点下周K,对比对比URL的区别)

最后清洗出来的URL是这样的

http://push2his.eastmoney.com/api/qt/stock/kline/get?fields1=f1%2Cf2%2Cf3%2Cf4%2Cf5%2Cf6&fields2=f51%2Cf52%2Cf53%2Cf54%2Cf55%2Cf56%2Cf57%2Cf58%2Cf59%2Cf60%2Cf61&klt=101&fqt=1&secid=0.000001&beg=0&end=20500000

你会发现klt=101是日K,klt=102是周K,secid是股票代码,end是最后的日期

f61&klt=101&fqt=1&secid=0.000001&beg=0&end=20500000

你会发现klt=101是日K,klt=102是周K,secid是股票代码,end是最后的日期

知道了该爬取的URL之后,我们就要开始编写代码了

股票爬虫下一篇:编写代码,开始贪婪地获取吧

股票爬虫第二篇

你可能感兴趣的:(爬虫与数据分析,爬虫,java,html)