短小精悍的Jsoup组件让Java解析HTML更加人性化,通俗易懂的Css选择风格的结点筛选,原生的DOM操作,让jQuery用户倍感亲切。
Jsoup:http://jsoup.org/
选择Jsoup绝对是一个正确的明智的选择,一个小小的Jar包,几十个类解决了Java解析HTML,生成HTML,各种转换,修改,结点,属性筛选,过滤,抓取等功能,更让Web开发者舒服的是Safe,简洁的几行代码解决了XSS问题。
通过下面几个例子感受Jsoup的简洁,强大之处。
1.获取指定URL的base路径
/** * 获取网页的Base地址 * * @throws IOException */ @Ignore @Test public void test1() throws IOException { Document doc = Jsoup.connect("http://www.fx368.com/index/").get(); System.out.println(doc.baseUri()); }
注:结果输出:http://www.fx368.com/index/
通过指定URL获取链接,通过链式操作得到HTML文档,然后就是Jsoup为我们提供的一系列方法来进行DOM的节点操作。
2.获取指定URL网页上img标签的src值
/** * 抓取网页上的img标签的src * * @throws IOException */ @Ignore @Test public void test2() throws IOException { Document doc = Jsoup.connect("http://www.fx368.com/index/").get(); Elements ele = doc.getElementsByTag("img"); for (Element e : ele) { System.out.println(e.attr("src")); } }
注:Element.attr("src")获取的结果是DOM中实际的值比如:"/img/header.png"
Element.absUrl("src")获取的结果是src的正真的值比如:"http://www.fx368.com/img/header.png".
2.通过Css选择器方式筛选节点
/** * 抓取51cto博客博文列表 * * @throws IOException */ @Ignore @Test public void test3() throws IOException { Document doc = Jsoup.connect( "http://aiilive.blog.51cto.com/all/1925756").get(); Elements elements = doc.select("div.modCon").select("ul").select("li") .select("span.artList_tit").select("a"); ListIterator<Element> iter = elements.listIterator(); System.out.println(doc.baseUri()); while (iter.hasNext()) { System.out.println(iter.next().absUrl("href")); } }
看到上面的doc.xxx后跟的一系列select方法,其中有按标签,标签+样式筛选来获取需要的结点元素,然后获取元素的属性。
这里的select("xxx")方法的参数是一个字符串,字符串的规则和jQuery操作DOM的选择器规则一致。
上面代码实现了指定用户的博文地址列表链接信息,关于如何书写选择器的条件需要分析实际情况下的DOM结构。
4.获取指定的一篇博文
/** * 获取一篇博文的正文内容 * * @throws IOException */ @Ignore @Test public void test6() throws IOException { Document doc = Jsoup.parse(new URL( "http://aiilive.blog.51cto.com/1925756/1024304"), 10000); Elements head = doc.select("div.showHead"); String title = head.select("div.showTitle").text(); System.out.println(title); Elements tag = doc.select("div.showTags"); Elements copyright = doc.select("div.CopyrightStatement lh22"); Elements content = doc.select("div.showContent"); StringBuilder sb = new StringBuilder(); sb.append(head.html()); sb.append(tag.html()); sb.append(copyright.html()); sb.append(content.html()); Document blog = Jsoup.parseBodyFragment(sb.toString()); System.out.println(blog.html()); }
注:使用Element.html()和Element.text()是不同的,前者是获取整个元素,后者是获取元素的内容。
例如:
<a href="xx">http://aiilive.blog.51cto.com</a>
doc.select("a").html()结果是:<a href="xx">http://aiilive.blog.51cto.com</a>
doc.select("a").text()结果是:http://aiilive.blog.51cto.com
jsoup提供了比较完备的解析HTML方法,本身源代码也很少,可以很快熟悉并掌握,使用Jsoup抓取网页中的一部分生成新的HTML文档,修改文档的元素信息,追加,过滤HTML标签,类似jQuery对DOM操作的功能。
Jsoup为解决一些HTML过滤等问题提供了很便利且可以自定义的功能。
就写这么多了,做例子为了熟悉用法,要想熟练多用,多尝试,多发现,越新鲜,发挥的功效越强大。
本文出自 “野马红尘” 博客,谢绝转载!