htmlunit教程

String  url="http://news.cnblogs.com/";//想采集的网址
  String refer="http://www.cnblogs.com/";
  URL link=new URL(url); 
  WebClient wc=new WebClient();
  WebRequest request=new WebRequest(link); 
  request.setCharset("UTF-8");
  request.setProxyHost("120.120.120.x");
  request.setProxyPort(8080);
  request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段
  ////设置请求报文头里的User-Agent字段
  request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
  //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
  //wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。
  //其他报文头字段可以根据需要添加
  wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理
  wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的
  wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。
  wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
  wc.getOptions().setThrowExceptionOnScriptError(false);
  wc.getOptions().setTimeout(10000);
  //设置cookie。如果你有cookie,可以在这里设置
  Set<Cookie> cookies=null;
  Iterator<Cookie> i = cookies.iterator();
  while (i.hasNext()) 
  {
      wc.getCookieManager().addCookie(i.next());
  }
  //准备工作已经做好了
  HtmlPage page=null;
  page = wc.getPage(request);
  if(page==null)
  {
      System.out.println("采集 "+url+" 失败!!!");
      return ;
  }
  String content=page.asText();//网页内容保存在content里
  if(content==null)
  {
      System.out.println("采集 "+url+" 失败!!!");
      return ;
  }
  //搞定了
  CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
  Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦。


有些api在新版的jar包中改变了。

你可能感兴趣的:(htmlunit教程)