爬虫二式 —— WebClient

优点:可设置一个运行JavaScript的时间,解决页面数据延时加载问题

缺点:慢,而且参数不好设置

		// 爬取网站网址+关键字(关键字需转换为gbk的url,如"%2B%3E")
		String url = "http://s.zhaobiao.cn/search.do?queryword=" + URLEncoder.encode(name, "GBK");

		// 查询参数
		Map parameMap = new HashMap<>();
		// 查询关键字(上方已设置)
		// parameMap.put("queryword", URLEncoder.encode(name, "GBK"));
		// 省份
		parameMap.put("province", "");
		// 查询类型:招标
		parameMap.put("searchtype", "zb");
		// 投标文件
		parameMap.put("bidfile", "");
		// 推荐
		parameMap.put("recommend", "");
		//
		parameMap.put("leftday", "");
		// 查询年份
		parameMap.put("searchyear", "");
		// 全文搜索
		parameMap.put("field", "all");
		// 展示方式为标题(title) 附概要(abstract)
		parameMap.put("displayStyle", "title");
		// 是否搜索附件 0.不搜索 1.搜索
		parameMap.put("attachment", "1");
		// 查询历史开始时间
		parameMap.put("starttime", startTime);
		// 查询历史结束时间
		parameMap.put("endtime", endTime);

		for (Entry en : parameMap.entrySet()) {
			url += "&" + en.getKey() + "=" + en.getValue();
		}

		// 构造一个webClient 模拟Chrome 浏览器
		WebClient webClient = new WebClient(BrowserVersion.CHROME);
		// 支持JavaScript
		webClient.getOptions().setJavaScriptEnabled(true);
		webClient.getOptions().setCssEnabled(false);
		webClient.getOptions().setActiveXNative(false);
		webClient.getOptions().setCssEnabled(false);
		webClient.getOptions().setThrowExceptionOnScriptError(false);
		webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
		webClient.getOptions().setTimeout(5000);
		// 设置一个运行JavaScript的时间,解决页面数据延时加载问题
		webClient.waitForBackgroundJavaScript(5000);

		HtmlPage rootPage;
		try {
			rootPage = webClient.getPage(url);

        //如果执行的太快导致页面请求异常,请设置等待时间
			try {
				Thread.sleep(1000);
			} catch (InterruptedException e) {
				// TODO Auto-generated catch block
				LOGGER.error("线程休眠1秒钟出现异常!", e);
				e.printStackTrace();
			}
			String html = rootPage.asXml();
			Document doc = Jsoup.parse(html);

			// 解析
			Element limit = doc.body().selectFirst("div[class=html]");

 

你可能感兴趣的:(java,爬虫)