Jsoup爬虫注解版_简单好用

文章目录

      • 介绍
      • 涉及技术
      • 安装教程
      • 使用说明
        • 1、爬取单一对象
        • 2、爬取List集合
        • 3、爬取并保存图片
        • 4、级联爬取(表中表)
        • 5、对结果进行过滤
      • 详细Api说明

介绍

原始的Jsoup爬虫框架使用起来可能比较繁琐,特别是在进行封装对象、级联封装对象(表中表)的时候,常见的做法是针对每个对象编写解决方法。

该框架的作用是减少公共代码,简化操作,不重复造轮子,只需要在类和字段上添加一个的注解,就可以把爬取的内容封装成一个对象,并提供常用的功能,可以基本满足日常的需求。

框架功能:
1、支持爬取文本、HTML、任意标签的属性,并提供分页爬取方法。
2、提供完全匹配、包含、字符串替换、>、<、=等筛选功能。
3、提供自动封装对象、自动封装List集合、级联爬取(表中表)功能
4、提供爬取图片保存到指定目录功能,同时可以自定义图片格式。

涉及技术

反射、IO、Jsoup、自定义注解、DCL单例

安装教程

将这个jar包拷贝到你的项目中即可 码云地址
Jsoup爬虫注解版_简单好用_第1张图片

使用说明

详细api见下个title

1、爬取单一对象

步骤:

a、在实体类对象和字段上添加注解
Jsoup爬虫注解版_简单好用_第2张图片
b、执行
Jsoup爬虫注解版_简单好用_第3张图片
结果如下:
在这里插入图片描述

2、爬取List集合

步骤:

a、在实体类对象和字段上添加注解(跟上面相同)
b、执行(注意传递的是List)
Jsoup爬虫注解版_简单好用_第4张图片
结果如下:
Jsoup爬虫注解版_简单好用_第5张图片

3、爬取并保存图片

以爬取jd商城的商品列表为例

步骤

a、在实体类对象和字段上添加注解
Jsoup爬虫注解版_简单好用_第6张图片
b、执行
Jsoup爬虫注解版_简单好用_第7张图片
结果:
Jsoup爬虫注解版_简单好用_第8张图片
Jsoup爬虫注解版_简单好用_第9张图片
PS:完整demo请转到码云进行查看。

4、级联爬取(表中表)

步骤

a、添加注解
Jsoup爬虫注解版_简单好用_第10张图片

b、执行方法
Jsoup爬虫注解版_简单好用_第11张图片
结果:
Jsoup爬虫注解版_简单好用_第12张图片

5、对结果进行过滤

需求:筛选出博客中标题包含 “使用” 这个字符 且阅读数量大于100的博客

a、添加注解
Jsoup爬虫注解版_简单好用_第13张图片
b、执行
Jsoup爬虫注解版_简单好用_第14张图片

结果:
在这里插入图片描述

详细Api说明

@JsoupDocment: 标注在实体类或字段上

  • 若标注在类上:表示该类为爬虫填充实体对象
  • 标注在字段上:表示该字段为另外一个实体对象
属性 说明
targetUrl 爬取网站的url
domain 目标网站的首页,有时候需要拼接url,若targetUrl不存在则以这个为准
cssQuery css选择器,注意是一个封装实体的css选择器,不加则表示爬取整个页面
subHrefByCss 仅级联爬取时使用,会从该选择器的href属性指定的url去爬取,一般为a标签
subHrefByField 仅级联爬取时使用,从类中的字段上获取url去爬取
urlPrefix 仅级联爬取时使用,有时候级联爬取网站时可能是相对路径,可以通过该属性执行前缀,默认拼接domain属性的值,注意:若是以http开头url则不会添加该前缀

@JsoupField: 只能标注在字段上,

注意:该字段的类所在必须含有@JsoupDocment注解

属性 说明
cssQuery 将指定选择器的中值注入到这个字段上,注意:这是基于JsoupDocment注解指定的css选择器的
textType 是获取text还是html,ExtractTextType枚举值,默认JsoupTextType.TEXT
attr 指定从属性上爬取,如src,若指定该值则textType属性将不起作用
replaceTarget 字符串替换功能,要替换的目标字符串,默认替换为空字符串,可通过replaceRes指定替换为指定字符串
replaceRes 要替换成的目标字符
isInteger 字符是否需要转换为Integer类型,默认false
imgSaveAttr 仅在保存图片时使用,指定从img标签的哪个属性上爬取图片,注意:若要保存图片,该属性必须指定
imgSavePath 图片保存位置,imgAttr属性存在时生效,默认保存在user.dir(当前项目路径)
imgFormat 保存文本时图片格式,ImgType枚举值,默认为ImgType.PNG
filterStrByEquals 字符串筛选时使用,完全匹配
filterStrByContain 字符串筛选时使用,是否包含指定字符串,当filterByEquals也存在时以filterByContain为准
filterIntByEq 筛选数字,=,仅当isInteger为true时生效,判断顺序:大于 、小于、等于
filterIntByGt 筛选数字,<,仅当isInteger为true时生效,判断顺序:大于 、小于、等于
filterIntByLt 筛选数字,<,仅当isInteger为true时生效,判断顺序:大于 、小于、等于

execute方法:
核心方法,用来执行该框架并获取结果

方法 说明
public Object execute(Object obj,Class clazz) obj:返回值类型,clazz:实体的class
public Object execute(Object obj,Class clazz,String url) url:爬取的url,忽略@JsoupDocment注解指定的url ,在分页爬取时可使用

你可能感兴趣的:(Jsoup爬虫)