HtmlUnit爬虫

首先来看一下实例

WebClient client=new WebClient(BrowserVersion.CHROME);

初始化client,可以设置不同浏览器版本的client.

HtmlPage page=client.getPage("http://www.baidu.com/");

/**设置不需要javascript支持*/

client.getOptions().setJavaScriptEnabled(false);

/**设置不需要css支持*/

client.getOptions().setCssEnabled(false);

/**获取form*/

HtmlForm form=page.getFormByName("f");

//HtmlTextInput text= form.getInputByName("wd");

HtmlInputhtmlInput= (HtmlInput)page.getHtmlElementById("kw");

htmlinput  比 htmltextinput要好,

System.out.println(htmlInput.toString());

htmlInput.setValueAttribute("雅蠛蝶");

System.out.println("input value attribute==>"+htmlInput.toString());

HtmlInputbtn= (HtmlInput)page.getHtmlElementById("su");

HtmlPagepage2=btn.click();

System.out.println(page2.asXml());

你可能感兴趣的:(HtmlUnit爬虫)