用JSOUP抓取某报广告版,很美的JSOUP选择器

1.jsoup简要介绍

jsoup 是一款用Java语言实现的的HTML工具,它提供了一套非常方便的API用于HTML的数据的操作和抽取,其最优美和强大的地方就是DOM选择器部分。相较于HtmlUnit,在选择器使用上jsoup真的是要好上太多。要想学习和使用jsoup,强烈建议您阅读官方文档。

jsoup网站:jsoup.org

用JSOUP抓取某报广告版,很美的JSOUP选择器_第1张图片
www.jsoup.org

2.jsoup示例程序

本程序的主要功能是利用jsoup连接某报纸电子版某天的头版页面,解析其版面目录并取得广告版的地址,连接并解析广告版页面,并将其广告图片以日期和版号命名保存到E盘的paper目录下。本程序除用到了jsoup的JAR包以外,还用到了apahce的Lang和IO两个JAR工具包,分别用来修剪字符串(trim)和拷贝图片到本地(copyURLToFile)。你可以利用maven引入JAR包,也可以自行下载JAR到类目录下。

jsoup下载地址:jsoup-1.10.2.jar

commons下载地址:Apache Commons

maven依赖:

用JSOUP抓取某报广告版,很美的JSOUP选择器_第2张图片
maven依赖

示例程序:

用JSOUP抓取某报广告版,很美的JSOUP选择器_第3张图片
jsoup示例程序

3.简要补充

程序的关键部分在于对Dom文档部分的选择,即doc.select("div[class=right_title-name] a"),通过变换不同的表达式从而取得Dom的不同部分。

为表达方便,示例程序中把日期写死在程序里面,如果想取得所有日期的数据,遍历日期即可达到目的,即DateFormatdf1=newSimpleDateFormat("yyyy-MM/dd")。

从以上程序不难看出JSOUP选择器是多么的简捷和美丽。

本示例程序只是为学习和交流,不能用于其它目的,下载的广告图片版权归属原单位。

你可能感兴趣的:(用JSOUP抓取某报广告版,很美的JSOUP选择器)