zhaohang_1

采集baidu搜索信息的java源代码实现（使用了htmlunit和Jsoup）

最近大四做毕设，题目是关于语言自动处理的。其中的第一步，需要采集数据，最开始时候写了一个爬虫，但是效果不好，尝试了网上的一个主题爬虫，但是好像也就他给的那个主题搜素的比较全面，朋友说，你干嘛不把百度搜索的结果作为爬虫的数据来源，心想也是，本人懒，再者毕竟这个部分不是毕设的主要部分，便开始找代码看有没有直接能用的，显然没有。于是一步步总结了一套方法，尝试了用java做了关于爬百度搜索结果的程序。

1.需要下载Htmlunit和Jsoup的jar包

（最开始只尝试使用其中之一，无果，尝试两个合起来，效率不太高，但是搜索结果出来了，如果有什么改进空间，大家可以提议。方法也都没有封装，不过我注释写得比较详细，如果有问题，可以留言）

htmlunit是公认的比较好的无GUI的浏览器，模拟执行浏览器的操作，Jsoup的相关jar包也是比较好的关于爬虫的集成的包。

下载链接：CSDN地址

Jsoup：http://download.csdn.net/detail/zhaohang_1/8586799

htmlunit：http://download.csdn.net/detail/zhaohang_1/8586849

2.建立项目

建立两个java文件。

第一部分，HtmlUnitforBD.java：主要实现摘取百度搜索的URL链接；

第二部分，transURLtoINFO.java：摘取链接的具体内容。

3.观察网页内容

观察网页源码：

3.1百度输入框参数：id=kw

采集baidu搜索信息的java源代码实现（使用了htmlunit和Jsoup）_第1张图片

3.2“百度一下”的按钮参数：id=su

采集baidu搜索信息的java源代码实现（使用了htmlunit和Jsoup）_第2张图片

3.3执行搜索“习大大”之后的网页源码，可以发现搜索的结果里面几乎都包含带有data-click属性的<div>标签，就是要把他们全提取出来，另外某些结果的属性是“mu”的，因为含这个属性的<div>标签比较少，本人没有做，有兴趣的可以试着改改。

采集baidu搜索信息的java源代码实现（使用了htmlunit和Jsoup）_第3张图片

3.4看其他页的代码，找规律获取所有页的地址

采集baidu搜索信息的java源代码实现（使用了htmlunit和Jsoup）_第4张图片

规律就是如图：

，pn=1（第二页），pn=2（第三页）...，并且其他的部分是相同的，也就是是说，直接替换掉数字就可以定位到该页。

4.好，来代码！

（第一部分中有两处try catch中注释掉的代码，可以取消注释，这样能够查看从网页获取的文本内容。程序执行过程中存在找不到网页返回504等错误，很少碰见，如果出现，可以稍等一下，程序给出反馈后继续执行。）

第一部分（获取链接的部分）：

package bdsearch;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlInput;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

///////////////关于htmlunit的相关资料，在此站上有些资料，参考了一下：http://www.cnblogs.com/cation/p/3933408.html  

public class HtmlUnitforBD {
	private static int N = 3;// 搜索页数
	private static String keyW = "习大大";// 搜索词
	private static HtmlPage firstBaiduPage;// 保存第一页搜索结果
	private static String format = "";// Baidu对应每个搜索结果的第一页第二页第三页等等其中包含“&pn=1”,“&pn=2”,“&pn=3”等等，提取该链接并处理可以获取到一个模板，用于定位某页搜索结果
	private static ArrayList<String> eachurl = new ArrayList<String>();// 用于保存链接

	public static void main(String[] args) throws Exception {
		mainFunction(N, keyW);
	}

	public static void mainFunction(final int n, final String keyWord) throws FailingHttpStatusCodeException, MalformedURLException, IOException {
		Thread thread = new Thread(new Runnable() {
			@Override
			public void run() {
				int x = n;// 页数
				System.out.println("要提取百度关于“" + keyWord + "”搜索结果的前" + x + "页");
				/*
				 * 1.获取并输出第一页百度查询内容
				 */
				Elements firstPageURL = null;
				try {
					firstPageURL = getFirstPage(keyWord);
				} catch (FailingHttpStatusCodeException | IOException e) {
					e.printStackTrace();
				}// 定义firstPageURL作为第一个搜索页的元素集
				for (Element newlink : firstPageURL) {
					String linkHref = newlink.attr("href");// 提取包含“href”的元素成分，JSoup实现内部具体过程
					String linkText = newlink.text();// 声明变量用于保存每个链接的摘要
					if (linkHref.length() > 14 & linkText.length() > 2) {// 去除某些无效链接
						System.out.println(linkHref + "\n\t\t摘要：" + linkText);// 输出链接和摘要
						eachurl.add(linkHref);// 作为存储手段存储在arrayList里面
						// try {
						// String temp = "";
						// try {
						// transURLtoINFO.trans(linkHref, temp);
						// } catch (IOException e) {
						// // TODO Auto-generated catch block
						// e.printStackTrace();
						// }
						// } catch (FailingHttpStatusCodeException e) {
						// e.printStackTrace();
						// }
					}
				}
				/*
				 * 2.读取第二页及之后页面预处理
				 */
				nextHref(firstBaiduPage);// 以firstBaiduPage作为参数，定义format，即网页格式。
				/*
				 * 3.获取百度第一页之后的搜索结果
				 */
				for (int i = 1; i < x; i++) {
					System.out.println("\n************百度搜索“" + keyW + "”第" + (i + 1) + "页结果************");
					String tempURL = format.replaceAll("&pn=1", "&pn=" + i + "");// 根据已知格式修改生成新的一页的链接
					System.out.println("该页地址为：" + format.replaceAll("&pn=1", "&pn=" + i + ""));// 显示该搜索模板
					HtmlUnitforBD h = new HtmlUnitforBD();
					String htmls = h.getPageSource(tempURL, "utf-8");// 不知为何此处直接用JSoup的相关代码摘取网页内容会出现问题，所以采用新的编码来实现摘取网页源码
					org.jsoup.nodes.Document doc = Jsoup.parse(htmls);// 网页信息转换为jsoup可识别的doc模式
					Elements links = doc.select("a[data-click]");// 摘取该页搜索链接
					for (Element newlink : links) {// 该处同上getFirstPage的相关实现
						String linkHref = newlink.attr("href");
						String linkText = newlink.text();
						if (linkHref.length() > 14 & linkText.length() > 2) {// 删除某些无效链接，查查看可发现有些无效链接是不包含信息文本的
							System.out.println(linkHref + "\n\t\t摘要：" + linkText);
							eachurl.add(linkHref);// 作为存储手段存储在arrayList里面
							// try {
							// String temp = "";
							// try {
							// transURLtoINFO.trans(linkHref, temp);
							// } catch (IOException e) {
							// // TODO Auto-generated catch block
							// e.printStackTrace();
							// }
							// } catch (FailingHttpStatusCodeException e) {
							// e.printStackTrace();
							// }
						}
					}
				}
				System.out.println("\n\n\n输出所有地址");
				for (String xx : eachurl) {
					System.out.println(xx);
				}
				return;
			}
		});
		thread.start();
	}

	/*
	 * 获取百度搜索第一页内容
	 */
	public static Elements getFirstPage(String w) throws FailingHttpStatusCodeException, MalformedURLException, IOException {
		// 创建Web Client
		String word = w;
		WebClient webClient = new WebClient(BrowserVersion.CHROME);
		webClient.getOptions().setJavaScriptEnabled(false);// HtmlUnit对JavaScript的支持不好，关闭之
		webClient.getOptions().setCssEnabled(false);// HtmlUnit对CSS的支持不好，关闭之
		HtmlPage page = (HtmlPage) webClient.getPage("http://www.baidu.com/");// 百度搜索首页页面
		HtmlInput input = (HtmlInput) page.getHtmlElementById("kw");// 获取搜索输入框并提交搜索内容（查看源码获取元素名称）
		input.setValueAttribute(word);// 将搜索词模拟填进百度输入框（元素ID如上）
		HtmlInput btn = (HtmlInput) page.getHtmlElementById("su");// 获取搜索按钮并点击
		firstBaiduPage = btn.click();// 模拟搜索按钮事件
		String WebString = firstBaiduPage.asXml().toString();// 将获取到的百度搜索的第一页信息输出
		org.jsoup.nodes.Document doc = Jsoup.parse(WebString);// 转换为Jsoup识别的doc格式
		System.out.println("************百度搜索“" + word + "”第1页结果************");// 输出第一页结果
		Elements links = doc.select("a[data-click]");// 返回包含类似<a......data-click=" "......>等的元素，详查JsoupAPI
		return links;// 返回此类链接，即第一页的百度搜素链接
	}

	/*
	 * 获取下一页地址
	 */
	public static void nextHref(HtmlPage p) {
		// 输入：HtmlPage格式变量，第一页的网页内容；
		// 输出：format的模板
		WebClient webClient = new WebClient(BrowserVersion.CHROME);
		webClient.getOptions().setJavaScriptEnabled(false);
		webClient.getOptions().setCssEnabled(false);
		p = firstBaiduPage;
		String morelinks = p.getElementById("page").asXml();// 获取到百度第一页搜索的底端的页码的html代码
		org.jsoup.nodes.Document doc = Jsoup.parse(morelinks);// 转换为Jsoup识别的doc格式
		Elements links = doc.select("a[href]");// 提取这个html中的包含<a href=""....>的部分
		boolean getFormat = true;// 设置只取一次每页链接的模板格式
		for (Element newlink : links) {
			String linkHref = newlink.attr("href");// 将提取出来的<a>标签中的链接取出
			if (getFormat) {
				format = "http://www.baidu.com" + linkHref;// 补全模板格式
				getFormat = false;
			}
		}
	}

	public String getPageSource(String pageUrl, String encoding) {
		// 输入：url链接&编码格式
		// 输出：该网页内容
		StringBuffer sb = new StringBuffer();
		try {
			URL url = new URL(pageUrl);// 构建一URL对象
			BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(), encoding));// 使用openStream得到一输入流并由此构造一个BufferedReader对象
			String line;
			while ((line = in.readLine()) != null) {
				sb.append(line);
				sb.append("\n");
			}
			in.close();
		} catch (Exception ex) {
			System.err.println(ex);
		}
		return sb.toString();
	}
}

第二部分（提取可能有用的文本）：

package bdsearch;

import java.io.BufferedReader;
import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.ConnectException;
import java.net.MalformedURLException;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class transURLtoINFO {
	/*
	 * 匹配消除html元素
	 */
	// 定义script的正则表达式
	private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>";
	// 定义style的正则表达式
	private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>";
	// 定义HTML标签的正则表达式
	private static final String regEx_html = "<[^>]+>";
	// 定义空格回车换行符
	private static final String regEx_space = "\\s*|\t|\r|\n";

	public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException {
		String temp = null;
		trans("http://www.baidu.com/", temp);
		System.out.println("over");
	}

	public static String trans(String url, String info) throws FailingHttpStatusCodeException, MalformedURLException, IOException {

		ArrayList<String> hrefList = new ArrayList<String>();
		WebClient webClient = new WebClient(BrowserVersion.CHROME);
		webClient.getOptions().setJavaScriptEnabled(false);
		webClient.getOptions().setCssEnabled(false);
		try {
			HtmlPage page = null;
			try {
				page = (HtmlPage) webClient.getPage(url);
			} catch (ConnectException e) {
			}
			InputStream temp = new ByteArrayInputStream(page.asText().getBytes());
			InputStreamReader isr = new InputStreamReader(temp);
			BufferedReader br = new BufferedReader(isr);
			String str = null, rs = null;
			while ((str = br.readLine()) != null) {
				rs = str;
				if (rs != null)
					hrefList.add(rs);
			}
			System.out.println("从该网址" + url + "查找的可能相关文本如下：");
			for (int i = 0; i < hrefList.size(); i++) {
				String string = hrefList.get(i);
				string = getTextFromHtml(string);
				if (string.length() >= 50) {
					info += "\n" + string;
					System.out.println(string);
				}
			}
		} catch (IOException e) {
		}
		return info;
	}

	/*
	 * 从一行开始清除标签
	 * 
	 * @return
	 */
	public static String delHTMLTag(String htmlStr) {

		Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
		Matcher m_space = p_space.matcher(htmlStr);
		htmlStr = m_space.replaceAll(""); // 过滤空格回车标签

		Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
		Matcher m_script = p_script.matcher(htmlStr);
		htmlStr = m_script.replaceAll(""); // 过滤script标签

		Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
		Matcher m_style = p_style.matcher(htmlStr);
		htmlStr = m_style.replaceAll(""); // 过滤style标签

		Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
		Matcher m_html = p_html.matcher(htmlStr);
		htmlStr = m_html.replaceAll(""); // 过滤html标签

		return htmlStr.trim(); // 返回文本字符串
	}

	public static String getTextFromHtml(String htmlStr) {
		htmlStr = delHTMLTag(htmlStr);
		htmlStr = htmlStr.replaceAll(" ", "");
		return htmlStr;
	}
}

运行结果：

采集baidu搜索信息的java源代码实现（使用了htmlunit和Jsoup）_第5张图片

同时可以输出了所有链接，有需要的可以用此方法专门搜集链接：

采集baidu搜索信息的java源代码实现（使用了htmlunit和Jsoup）_第6张图片

如果取消注释输出的文本如下：

采集baidu搜索信息的java源代码实现（使用了htmlunit和Jsoup）_第7张图片

怎么把list中的数据选出其中一条放在第一位 java 隔壁蜡笔 list java windows 数据结构开发语言
在Java中将List中的特定数据移至首位在Java开发中，操作集合类是频繁且基本的需求。例如，假设我们有一个包含多个元素的列表，需要将其中的某一特定元素移动到列表的第一位。这种需求在许多场景中都很常见，例如在用户界面排序、任务优先级调整等。本文将通过示例代码和图示化流程来说明如何实现这一功能。问题描述设想我们有一个包含多个字符串的列表，我们希望将某个特定的字符串（如果存在）移动到列表的第一位。比
什么是BIO、NIO、AIO？ PLuto777_ nio java aio
在高性能的IO体系设计中，BIO、NIO、AIO的概念，常常会让我们感到困惑不解。在Java面试中，我们也经常会被问到这个问题。譬如：BIO、NIO、AIO的概念同步/异步、阻塞/非阻塞的区别NIO如何实现多路复用功能BIOBIO全称是BlockingIO，是JDK1.4之前的传统IO模型，本身是同步阻塞模式。线程发起IO请求后，一直阻塞IO，直到缓冲区数据就绪后，再进入下一步操作。针对网络通信都
List获取指定位置元素 mini宝儿 arraylist
ArrayList中怎么获取指定第几个元素，例如获取第5个元素，可以通过list.get(4)得到。源码如下：publicclassArrayListextendsAbstractList implementsList,RandomAccess,Cloneable,java.io.Serializable{ privatestaticfinallongserialVersionUID=8683
如何使用 DeepSeek 帮助自己的工作? C_V_Better AI人工智能 java java ai AI编程人工智能
DeepSeek是一款强大而灵活的AI工具，可以帮助你提高工作效率、优化工作流程并提升工作质量。以下是一些实用的建议，你可以根据自己的工作需求来选择使用。一、使用DeepSeek进行编程调试在编程过程中，遇到代码报错是很常见的问题。DeepSeek可以帮助你快速定位和解决这些问题。例如，当你在开发一个Java应用程序时，如果代码中出现了一个NullPointerException，你可以将错误信息
【一文读懂】JS与Java的区别 Bl_a_ck JS进阶 javascript java 开发语言
相同点这两个语言除了注释长得差不多之外就没什么相同点了不同点设计初衷：JS从开发到上线就经历了10天的时间，最初的目的是实现网页端的动态交互效果，由于设计时间太短，语言的一些细节考虑得不够严谨，导致后来很长一段时间，Javascript写出来的程序混乱不堪。所以现在有了TS来代替JSJava设计用于编写跨平台的、运行在虚拟机上的应用程序设计理念：Java是典型的面相对象的语言，具有面向对象的三大特
java list如何让指定元素排在第一位 C_V_Better java java list
可以通过以下几种方式实现：一、使用List的方法实现方法1：使用add(0,element)和remove()获取指定元素的索引。将该元素从当前位置移除。使用add(0,element)方法将其插入到第一位。示例代码：importjava.util.ArrayList;importjava.util.List;publicclassMain{publicstaticvoidmain(String[
【如何实现 JavaScript 的防抖和节流？】程序员远仔前端面试高频问题宝典 javascript vue.js 前端框架前端 html5 开发语言
如何实现JavaScript的防抖和节流？前言防抖（Debounce）和节流（Throttle）是JavaScript中优化高频事件处理的两种常用技术。它们可以有效减少事件处理函数的调用次数，提升性能并改善用户体验。本文将详细介绍防抖和节流的实现原理及其应用场景。关键词JavaScript、防抖、节流、高频事件、性能优化、事件处理、前端开发、前端面试、前端基础、前端进阶、前端工程化、前端开发最佳实
java脚本弹出输入框,使用弹出框编辑(增加)表单内容 jordan.xue java脚本弹出输入框
0、背景使用Amazeui中Prompt模态窗口Modal1、JQuery功能：表单复位获取表单的值，并显示在修改弹出框中(文本框、单选、多选、下拉框)发送Post异步请求给后台自刷新$(function(){//编辑功能$('table.edit').on("click",function(){//表单复位document.getElementById("form-machineRole").r
写轮眼按钮特效：打造炫酷网页按钮孤客网络科技工作室 html+css网页开发 html
写轮眼按钮特效：打造炫酷网页按钮引言在网页设计中，按钮是用户交互的重要元素之一。一个炫酷的按钮特效不仅能提升用户体验，还能为网页增添独特的视觉吸引力。今天，我们将通过CSS和JavaScript来实现一个“写轮眼”按钮特效，灵感来源于《火影忍者》中的经典元素——写轮眼。效果预览在开始之前，我们先来看一下最终的效果：实现步骤1.index.html（部分代码）首先，我们需要创建一个简单的HTML结构
SpringBoot 新手入门（实操）李恩11 spring boot 后端 java
SpringBoot是一个开源框架，旨在简化基于Spring的Java应用程序的开发。它通过提供一系列默认配置和约定大于配置的理念，让开发者可以更快速地创建和部署应用。以下是一个SpringBoot新手入门的实操指南，帮助你从零开始创建一个简单的SpringBoot应用程序。环境准备安装JDK:SpringBoot需要JavaDevelopmentKit(JDK)8或更高版本。你可以从Oracle
遍历HashMap，有6种方式，你学会了没？程序员猫哥 python java 开发语言
在Java中，有多种方式可以遍历HashMap，下面为你详细介绍几种常见的遍历方法。1，使用keySet()遍历键，再通过键获取值创建一个HashMap对象，并向其中添加一些键值对。使用map.keySet()方法获取HashMap中所有键的集合。通过for-each循环遍历这个键的集合。在循环体中，使用map.get(key)方法根据当前键获取对应的值，并将键和值打印输出。packagecom.
前端 window.print() 打印图片 BillKu 前端
在使用document.write时，确保内容加载完成后再执行其他操作（如print），可以通过以下方法实现：1.使用window.onload事件window.onload事件会在页面所有资源（包括图片、脚本等）加载完成后触发。javascript复制window.onload=function(){document.write("页面已加载完成");window.print();//确保内容加
今日-Vue框架幼儿园口算大王 vue.js 前端 javascript java
什么是VUE框架？Vue是一款用于构建用户界面的JavaScript框架。它基于标准HTML、CSS和JavaScript构建，并提供了一套声明式的、组件化的编程模型，帮助你高效地开发用户界面。Vue的核心是一个响应的数据绑定系统，它让数据与DOM保持同步非常简单。Vue的目标是通过尽可能简单的API实现响应的数据绑定和组合的视图组件。它不仅易于上手，还便于与第三方库或既有项目整合。Vue也被称为
python分布式爬虫去重_Python分布式爬虫(三) - 爬虫基础知识 weixin_39997311 python分布式爬虫去重
0相关源码1技术选型爬虫能做什么1.1scrapyVSrequests+beautifulsoup做爬虫的时候，经常都会听到scrapyVSrequests+beautifulsoup的组合在本次分布式爬虫实现中只用scrapy而不用后者的原因是：requests和beautifulsoup都是库，scrapy是一个框架框架中可以应用requests等，可以集合很多第三方库基于twisted(异步
Scrapy分布式爬虫系统 ivwdcwso 开发运维 scrapy 分布式爬虫 python 开发
一、概述在这篇博文中,我们将介绍如何使用Docker来部署Scrapy分布式爬虫系统,包括Scrapyd、Logparser和Scrapyweb三个核心组件。这种部署方式适用于Scrapy项目和Scrapy-Redis分布式爬虫项目。需要安装的组件:Scrapyd-服务端,用于运行打包后的爬虫代码,所有爬虫机器都需要安装。Logparser-服务端,用于解析爬虫日志,配合Scrapyweb进行实时
第十二届蓝桥杯 2021年省赛真题 (C/C++ 大学C组) 第一场肖有量蓝桥杯 c/c++
蓝桥杯2021年省赛真题(C/C++大学C组）#AASC#B空间#C卡片#D相乘#E路径#F时间显示#G最少砝码#H杨辉三角形#I左孩子右兄弟#J括号序列解析移步对应Java组的题解。#AASC本题总分：555分问题描述已知大写字母AAA的ASCII\mathrm{ASCII}ASCII码为656565，请问大写字母LLL的ASCII\mathrm{ASCII}ASCII码是多少？答案提交
Java 设计模式之解释器模式 xiangxiongfly915 #Java 设计模式 java 设计模式解释器模式
文章目录Java设计模式之解释器模式概述UML代码实现Java设计模式之解释器模式概述解释器模式(interpreter)：给定一个语言，定义它的文法的一种表示，并定义一个解释器，这个解释器使用该表示来解释语言中的句子。如果一种特定类型的问题发生的频率足够高，那么可能就值得将该问题的各个实例表述为一个简单语言中的句子。这样就可以构建一个解释器，该解释器通过解释这些句子来解决该问题。UMLAbstr
Java 设计模式之桥接模式 xiangxiongfly915 #Java 设计模式 java 设计模式桥接模式
文章目录Java设计模式之桥接模式概述UML代码实现Java设计模式之桥接模式概述桥接模式(Bridge)：将抽象部分与它的实现部分分离，使它们都可以独立地变化。通过桥接模式，可以避免类爆炸问题，并提高系统的可扩展性。UML核心思想：抽象部分：定义高层的控制逻辑。实现部分：定义底层的具体实现。桥接：通过组合的方式连接抽象部分和实现部分。角色：Implementor：实现部分的接口，定义行为。Con
量子计算威胁下Java应用的安全防护：技术剖析与实践老猿讲编程量子计算 java 安全
在科技飞速发展的当下，众多公司与研究团队全力投入实现量子霸权的研究，使得量子计算机超越传统计算机运算效率的未来愈发临近。量子计算虽蕴含着巨大的潜力，但也给现有加密体系带来了严峻挑战。一旦量子计算机具备破解当前加密算法的能力，大量基于现有加密技术保护的数据和通信都将面临风险，“先窃取，后解密”的攻击策略可能成为现实。在此背景下，Java应用如何构建有效的防御机制，抵御量子攻击，成为了亟待解决的关键问
Java 字符串处理：String、StringBuilder 和 StringBuffer 探讨老猿讲编程 java 开发语言
在Java编程领域，字符串处理是极为常见的操作。Java提供了String、StringBuilder和StringBuffer这三个类来满足不同场景下对字符序列的处理需求。本文将深入探讨这三个类的特性、使用场景以及性能表现，并通过详细的源代码示例进行解析。一、String类：不可变的字符序列1.1不可变特性原理String类在Java中被设计为不可变类，这意味着一旦创建了一个String对象，其
JSR 330与Spring的完美结合：依赖注入的实践 t0_54program typescript ubuntu javascript 个人开发
在Java开发的世界里，依赖注入（DependencyInjection，DI）已经成为一种不可或缺的设计模式。它不仅提高了代码的可维护性和可测试性，还让组件之间的耦合度大大降低。今天，我们就来探讨一下JSR330标准以及如何在Spring框架中利用它来实现依赖注入。一、JSR330简介JSR330，即“DependencyInjectionforJava”，是由Java社区进程（JavaComm
Java命名规范 False12.0 java 开发语言
1包（Package）全部小写字母：包名应该全部使用小写字母，避免使用大写字母或下划线。使用逆域名：通常采用公司或组织的域名的逆序作为包名的前缀。例如com.google.maps.navigation，com是常见的顶级域名后缀，表示商业组织；google是公司名称，逆序后放在前面；maps表明这是与地图相关的功能；navigation进一步明确是地图导航方面的应用。点分隔符：点分隔符之间有且仅
使用Python抓取新闻媒体网站的最新头条与相关内容：深入的爬虫开发与数据分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫数据分析数据挖掘人工智能开发语言
引言在互联网时代，新闻媒体网站是人们获取信息和了解世界的重要渠道。随着新闻的即时更新，获取最新头条并进行数据分析成为许多行业领域（如媒体、广告、舆情监测等）的重要需求。通过抓取新闻媒体网站的内容，我们不仅能获取各类新闻文章，还能为后续的数据分析、情感分析、舆情监控等提供基础数据。本篇博客将详细讲解如何使用Python编写一个爬虫，抓取新闻媒体网站的最新头条及其相关内容。我们将使用最新的技术栈，包括
Java 设计模式总结 xiangxiongfly915 #Java 设计模式 java 设计模式
文章目录Java设计模式总结创建型模式（5种）结构型模式（7种）行为型模式（11种）Java设计模式总结设计模式（DesignPatterns）是软件工程中解决常见问题的经典解决方案。它们提供了一种标准化的方式来设计和组织代码，使得代码更易于维护、扩展和复用。设计模式分为三大类：创建型模式、结构型模式和行为型模式，共23种。创建型模式（5种）创建型模式关注对象的创建过程，旨在使系统独立于对象的创建
瑞_23种设计模式_中介者模式瑞486 23种设计模式设计模式中介者模式 java
文章目录1中介者模式（MediatorPattern）1.1介绍1.2概述1.3中介者模式的结构1.4中介者模式的优缺点1.5中介者模式的使用场景2案例一2.1需求2.2代码实现3案例二3.1需求3.2代码实现前言：本文章为瑞_系列专栏之《23种设计模式》的中介者模式篇。本文中的部分图和概念等资料，来源于博主学习设计模式的相关网站《菜鸟教程|设计模式》和《黑马程序员Java设计模式详解》，特此注明
Java(JavaEE)学习线路图太阳上的雨天 JAVA JAVA
Java学习线路图Java教程Java教程Java简介Java开发环境配置Java基础语法Java对象和类Java基本数据类型Java变量类型Java修饰符Java运算符Java循环结构Java分支结构JavaNumber类JavaCharacter类JavaString类JavaStringBuffer和StringBuilder类Java数组Java日期和时间Java正则表达式Java方法Ja
Lucene总体架构 weixin_34332905 java
Lucene总的来说是：•一个高效的，可扩展的，全文检索库。•全部用Java实现，无须配置。•仅支持纯文本文件的索引(Indexing)和搜索(Search)。•不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。在Luceneinaction中，Lucene的构架和过程如下图说明Lucene是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。让我们更细一些看Lucene的各组
redux中间件-redux-thunk #清词# 笔记中间件 javascript 开发语言
今天，让我们一起揭开redux中间件-redux-thunk的神秘面纱。本次小文章将会以任务驱动的形式去逐步讲解thunk及其在redux中的使用，这样易于理解，有理有据能够化抽象为具体。首先，为什么要使用redux中间件？什么是中间件？中间件有什么作用呢？redux是一个通用的JavaScript状态管理容器。对于state的变化是通过触发dispatch一个action，然后最交给reduce
gms认证流程_Android P（9.0）GMS认证新要求 weixin_39879651 gms认证流程
本文档主要初步整理AndroidP对GMS认证的新要求一、基本环境主机要求：Java8Python2.7ADB1.0.39VTS环境$sudoapt-getinstallpython-dev$sudoapt-getinstallpython-protobuf$sudoapt-getinstallprotobuf-compiler$sudoapt-getinstallpython-virtualen
如何排查定位java中的死锁编程巫师 java java 运维开发语言
一、服务死锁，Linux遇难题在当今数字化时代，微服务架构凭借其高可扩展性、灵活性和易于维护等优势，成为了众多企业构建大型应用系统的首选架构模式。当我们将微服务部署在Linux服务器上时，有时会遭遇令人头疼的死锁问题。死锁一旦发生，就如同给微服务的运行按下了“暂停键”，会导致服务无法正常响应，严重影响系统的可用性和稳定性，进而对业务造成不良影响。例如，在一个电商系统中，订单微服务和库存微服务可能会
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

采集baidu搜索信息的java源代码实现（使用了htmlunit和Jsoup）

1.需要下载Htmlunit和Jsoup的jar包

2.建立项目

3.观察网页内容

4.好，来代码！

你可能感兴趣的:(java,爬虫,JSoup,百度,htmlunit)