最近在做一个项目,需要在线从官网上下载选手的图片、名称信息,即做一个简易的网络爬虫,实时抓取最新官网选手数据。在网上搜了很多开源工具,一开始试的是webharvest,搞了一个上午,终于被其奇怪的配置文件搞怕了,我就是想链接下载一个在线的HTML页面,然后解析其DOM元素,没有更好的工具吗?
终于,在google上找到了Jsoup,其官网( http://jsoup.org/)上的demo神奇的只有两句话
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn ba");
你没看错,他可以直接根据你给的链接返回dom,并像jquery那样按照元素类型、ID、CSS样式过滤你要找的dom元素,所有返回的元素都放在Elements中,每个Elements中的元素也可包含子元素,层级清晰。
为什么用Jsoup:
1-没有依赖包,是的,你只要下载( http://jsoup.org/download)jsoup包,放在lib引用中,或者你的团队用Maven,在pom文件中加入如下依赖
<dependency> <!-- jsoup HTML parser library @ http://jsoup.org/ --> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.2</version> </dependency>
2-语法简单,如果你用过CSS,抑或Jquery,或者在web前端操作过DOM,恭喜你,你会爱上Jsoup。
下面给出代码,大概逻辑是在线下载2013快乐男生66强资料,并显示他们的名称,图片链接地址。
public static void main(String[]args) throwsFileNotFoundException{
try {
Documentdocument = Jsoup.connect("http://www.hunantv.com/v/2013/2013superboy/xs/").get();
Elementselements = document.select(".LD-A");
StringnameString = "(";
String[]names= new String[20];
intj =0;
for(int i = 0; i < elements.size(); i++) {
Element element = elements.get(i);
Elements ss = element.getElementsByTag("h4");
Elements img = element.getElementsByTag("img");
String textString = ss.get(0).text();
if(!(textString.indexOf("强")>=0&& textString.indexOf("十") >=0) &&
!(textString.indexOf("强")>=0&& textString.indexOf("1") >=0)
){
StringplayerName = textString;
StringimgUrl = img.attr("src").toString();
imgUrl= "/activity/images/superboy/" + PinYinTest.getPinyin(playerName)+".jpg";
System.err.println("('"+playerName +"','"+ imgUrl +"',1,''),");
}
}
}catch (IOException e) {
//TODO Auto-generated catch block
e.printStackTrace();
}
}