(1)首先创建maven项目
这就不多废话了。
(2)加入依赖包
<dependency> <groupId>org.jsoupgroupId> <artifactId>jsoupartifactId> <version>1.8.3version> dependency>(3)爬取网页信息 这里以海投网为例。
@Test public void parseHtml()throws Exception { String url = "http://xjh.haitou.cc/sx"; Document document = Jsoup.connect(url).get();//连接发送get请求,并获取document对象 Element tboady = document.select("tbody").first();//获得body标签 Elements trs = tboady.select("tr"); for(Element tr : trs){//解析各种标签 Element title = tr.select("td[class$=cxxt-title]").first(); Element companyName = title.select("div").first(); String companyText = companyName.text(); Element schoolName = title.select("span").first(); String schoolText = schoolName.text(); Element timeAll = tr.select("td[class$=text-left cxxt-holdtime]").first(); Element dateTime = timeAll.select("span[class$=hold-ymd]").first(); String dateText = dateTime.text(); Element where = tr.select("td[class$=text-ellipsis]").first(); Element whereName = where.select("span").first(); String whereText = whereName.text(); System.out.println("公司名称:"+companyText+" 地点:"+schoolText+" "+whereText+" 时间:"+dateText); } }结果:公司名称:上海艮泰信息技术有限公司 地点:西农 就业指导中心招聘厅(南绣山活动中心内) 时间:2017-05-06 09:00
(4)附上文件以供参考jsoup的使用方法
http://www.open-open.com/jsoup/