weixin_30621959

Java开源的支持xpath的html解析器介绍--JsoupXpath

JsoupXpath (https://github.com/zhegexiaohuozi/JsoupXpath)是一款纯Java开发的使用xpath解析提取html内容的解析器，xpath语法分析与执行完全独立，html的DOM树生成借助Jsoup，故命名为JsoupXpath. 为了在java里也享受xpath的强大与方便但又苦于找不到一款足够强大的xpath解析器，故开发了JsoupXpath。JsoupXpath的实现逻辑清晰，扩展方便，支持几乎全部常用的xpath语法，如下面这些：

 1 http://www.cnblogs.com/ 为例
 2 "//a/@href";
 3 "//div[@id='paging_block']/div/a[text()='Next >']/@href";
 4 "//div[@id='paging_block']/div/a[text()*='Next']/@href";
 5 "//h1/text()";
 6 "//h1/allText()";
 7 "//h1//text()";
 8 "//div/a";
 9 "//div[@id='post_list']/div[position()<3]/div/h3/allText()";
10 "//div[@id='post_list']/div[first()]/div/h3/allText()";
11 "//div[@id='post_list']/div[1]/div/h3/allText()";
12 "//div[@id='post_list']/div[last()]/div/h3/allText()";
13 //查找评论大于1000的条目（当然只是为了演示复杂xpath了，谓语中可以各种嵌套，这样才能测试的更全面嘛）
14 "//div[@id='post_list']/div[./div/div/span[@class='article_view']/a/num()>1000]/div/h3/allText()";
15 //轴支持
16 "//div[@id='post_list']/div[self::div/div/div/span[@class='article_view']/a/num()>1000]/div/h3/allText()";
17 "//div[@id='post_list']/div[2]/div/p/preceding-sibling::h3/allText()";
18 "//div[@id='post_list']/div[2]/div/p/preceding-sibling::h3/allText()|//div[@id='post_list']/div[1]/div/h3/allText()";

在这里暂不列出框架间的对比了，但我相信，你们用了会发现JsoupXpath就是目前市面上最强大的的Xpath解析器。

快速开始

如果不方便使用maven，可以直接使用lib下的依赖包跑起来试试，如方便可直接使用如下dependency(已经上传至中央maven库,最新版本0.1.1)：

1 <dependency>
2    <groupId>cn.wanghaomiaogroupId>
3    <artifactId>JsoupXpathartifactId>
4    <version>0.1.1version>
5 dependency>

依赖配置好后，就可以使用如下例子进行体验了！

 1 String xpath="//div[@id='post_list']/div[./div/div/span[@class='article_view']/a/num()>1000]/div/h3/allText()";
 2 String doc = "...";
 3 JXDocument jxDocument = new JXDocument(doc);
 4 List