java爬虫:jsoup的简单案例

package jsoup;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

//jsoup跟JavaScript有些类似,主要用于爬取静态的网页。需要自己下载一个jar包jsoup-1.8.1.jar
public class GetLinks {

public static void getLinks(String url) {

try {

                        //此处使用循环来遍历链接(如果存在多个链接的话)

for(int h=1;h<=8;h++){

                                //对链接进行拼接(格式需要自己重新定义,每个网站的格式都不相同)

                                //此处timeout设置了延迟,减少被网站识别爬虫的几率

Document doc = Jsoup.connect(url+"o"+h+"/")
.timeout(14000)
.get();
                                //此处需要自己填写网页中标签对应的id属性值
Element content = doc.getElementById("id属性值");

//用于存储链接
String linkHref="";
//获取链接(因为链接是多个所以使用"Elements")
Elements links=content.getElementsByTag("a");

for(int i=0;i

                                        //获取链接的全称

linkHref = links.get(i).attr("abs:href");

                                        //对获取的链接进行一些简单的操作

if(linkHref.indexOf("gongsi")==-1)
System.out.println(linkHref);
}
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
//主程序main

public static void main(String[] args) {

                //需要自己填写一个url地址

String first="";
getLinks(first);
}
}

你可能感兴趣的:(java爬虫:jsoup的简单案例)