Java使用httpRequest+Jsoup爬取红蓝球号码

1、Jsoup介绍

1.1、简介

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

1.2、Jsoup的主要功能

1、从一个URL,文件或字符串中解析HTML
2、使用DOM或CSS选择器来查找、取出数据
3、可操作HTML元素、属性、文本
注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。

2、源网站及页面元素分析

2.1、号码源

首先,这里我选择近年来比较稳定的数据源地址【某网站】截图如下

Java使用httpRequest+Jsoup爬取红蓝球号码_第1张图片

2.2、dom元素分析

2.2.1、开奖号码主体分析

先打开开发者工具,找到每条开奖号码对应的dom元素

可以看到每一期号码信息主体在一个标签中,其中第一个是开奖日期,第二个是开奖期号,第三个是开奖号码,每个奖号是单独的标签,红球的class=rr,篮球没有设置样式

        
          2021-06-13
          2021065
                    
          01          
          04          
          08          
          19          
          29          
          33                    
          16
          362,527,724
          3
          82
          
              
              
          
        

2.2.2、页码区域分析

由于我们爬取数据的时候,需要进行翻页操作,所以这里还需要分析翻页部分的内容,继续在开发者工具中,定位页码区域

Java使用httpRequest+Jsoup爬取红蓝球号码_第2张图片

可以看到页码部分是中的最后一个中,翻页操作的内容再class=pg的

标签中
可以拆分为多个标签数组,可以分析得出翻页链接的规律。
/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=页码

/zhcw/html/ssq/list_页码.html

元素 含义
0 总页数
1 总记录数
2 第一页的连接
3 上一页的链接
4 下一页的链接
5 最后一页的连接
6 当前页数


    
        

136 页 /2709 条记录 首页 上一页 下一页 末页 当前第 1

3、代码实现

maven引用,这里使用的是Jsoup1.13.1版本

  
      org.jsoup
      jsoup
      1.13.1
  

这使用的是基于jeecg开发的Job,搭建过程不赘述了,直接看主体代码。

 public void execute(JobExecutionContext arg0) throws JobExecutionException {
  Integer maxPage=getMaxPage();//获取总页数
  for(int pageNo=0;pageNo0)break;
     LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity();
        Elements kjhm=tds.get(2).getElementsByTag("em");
     kjhmEntiry.setSsqKjrq(sdf.parse(kjrq));
     kjhmEntiry.setSsqKjqh(kjqh);
        kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text()));
        kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text()));
        kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text()));
        kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text()));
        kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text()));
        kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text()));
        kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text()));
        lotterySsqKjjlService.save(kjhmEntiry);
    } catch (ParseException e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
    } catch (Exception e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
    }
   }
  }
  
 }
 
 private Integer getMaxPage(){
  String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list.html";
  String html = JwtHttpUtil.httpRequest(url, "GET",null);
  Document doc =  Jsoup.parse(html);
  Document docPageBar= Jsoup.parse(doc.getElementsByClass("pg").toString());
  Elements elePageBar = docPageBar.getElementsByTag("strong");
  Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text());
  return maxPageNo;
 }

以下是执行完成的部分数据截图

Java使用httpRequest+Jsoup爬取红蓝球号码_第3张图片

拉取到基础数据后,我们可以再写一个job,去计算出每期开奖号码的指标,可以进行奖号分析,预测等。
这里简单实现了部分分析指标的计算,以下是主体代码。

 public void run(){
  List list= lotterySsqKjjlService.findByQueryString("from LotterySsqKjjlEntity t");
  for(int i=0;i t =new ArrayList();
  t.add(kjjg.getSsqR1());
  t.add(kjjg.getSsqR2());
  t.add(kjjg.getSsqR3());
  t.add(kjjg.getSsqR4());
  t.add(kjjg.getSsqR5());
  t.add(kjjg.getSsqR6());
  Integer result=0;
  switch (opType) {
  case "jsCnt":
  case "osCnt":
   int jsgs=0;
   int osgs=0;
   for(int i=0;i 
 

至此,这个简单的爬虫就写完了,可以利用爬过来的这些基础数据,进行一些数据分析,预测。

到此这篇关于Java使用httpRequest+Jsoup爬取红蓝球号码的文章就介绍到这了,更多相关Java 爬取红蓝球号码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

你可能感兴趣的:(Java使用httpRequest+Jsoup爬取红蓝球号码)