httpclient抓取数据用jsoup解析

httpclient版本是4.3.6;

Jsoup版本是1.8.1,没有比Jsoup更爽的html解析工具了,它提供了像jquery那样的dom查找机制。


//用httpclient抓取网页代码
String url = "http://t.dianping.com/deal/6328992";
CloseableHttpClient httpclient = HttpClients.createDefault();
HttpGet httpget = new HttpGet(url);
CloseableHttpResponse response = httpclient.execute(httpget);
String content = EntityUtils.toString(response.getEntity(),"utf-8");

//用jsoup解析我要的数据
Document doc = Jsoup.parse(content);
Elements es = doc.select("div[class = imgctrl J_ctrl]").select("img");
for(org.jsoup.nodes.Element e:es){
    //商品图片
    String goods_img = e.attr("lazy-src-load");
}

但是其实可以直接用jsoup抓页面代码,如下代码“

Document doc = Jsoup.connect("http://www.baidu.com/")
    .data("user", "test")
    .cookie("user", "test")
    .timeout(3000)
    .post();


你可能感兴趣的:(httpclient抓取数据用jsoup解析)