中国匠心

Selenium 实现的网络爬虫

根据设计的模板，实现抓取动作，并将抓取后的结果根据当时的配置文件返回为具体的Json对象。示例代码已经上传至github，欢迎大家一起完善。

完整代码已经上传至https://git.oschina.net/newkdd/Crawler

因Selenium版本对浏览器的支持不一致，该示例环境如下：

Selenium 2.53.1
Firefox64位47.0.2

抓取后的结果

第一步：配置抓取规则



	
	
		1
		韩国电商网站
		http://niponjjuya.com/product/list.html?cate_no=33
		6
	
	
	
		
		
			
				location
				
				
				 
					location
					text
					text
					src
					src

第二步：定义实体Bean，其中WEB_DRIVER_PATH根据自己的路径进行修改。

package com.newkdd.web.selenium;

import java.util.ArrayList;
import java.util.List;

/**
 * 网络爬虫的通用变量
 * @author Mike
 *
 */
public class CrawlerConfig {
	/**默认超时时间*/
	public final static Integer TIME_OUT_DEFAULT=10;
	/**浏览器安装路径*/
	public final static String WEB_DRIVER_PATH="C:/Program Files/Mozilla Firefox/firefox.exe";
	/**Jquery引用地址*/
	public final static String JQUERY_PATH="http://code.jquery.com/jquery-1.8.0.min.js";
	/**节点类型*/
	public static  enum NODE_TYPE{
		LIST,STRING
	}
	/**节点取值对象*/
	public static enum NODE_VALUE_FROM{
		HREF,SRC,TEXT,LOCATION,VALUE
	}
	/**忽略的标签，忽略后不会添加到返回的JSON中*/
	public static List NODE_IGNORE=new ArrayList();
	
	static{
		NODE_IGNORE.add("SCRIPT");
	};
}

package com.newkdd.web.selenium;

import org.apache.commons.lang3.StringUtils;
import org.dom4j.Element;

/**
 * 抓取网站相关信息
 * @author Mike
 *
 */
public class CrawlerHead {
	/** 网站ID */
	private String websiteId;
	/** 网站地址 */
	private String websiteUrl;
	/** 网站名称 */
	private String websiteName;
	/** 超时加载时间单位秒 */
	private Integer timeout;

	public String getWebsiteId() {
		return websiteId;
	}

	public void setWebsiteId(String websiteId) {
		this.websiteId = websiteId;
	}

	public String getWebsiteUrl() {
		return websiteUrl;
	}

	public void setWebsiteUrl(String websiteUrl) {
		this.websiteUrl = websiteUrl;
	}

	public String getWebsiteName() {
		return websiteName;
	}

	public void setWebsiteName(String websiteName) {
		this.websiteName = websiteName;
	}

	public Integer getTimeout() {
		return timeout;
	}

	public void setTimeout(Integer timeout) {
		this.timeout = timeout;
	}
	
	/**
	 * 解析配置规则，超时时间如果没有配置获取默认的超时时间
	 * @param element *  节点配置信息
	 * @return
	 */
	public static CrawlerHead parse(Element element){
		CrawlerHead headNode=new CrawlerHead();
		// 打开地址
		String websiteId = element.element("head").element("id").getText();
		// 站点名称
		String websiteName = element.element("head").element("name").getText();
		// 站点地址
		String websiteUrl = element.element("head").element("url").getText();
		Integer timeout=CrawlerConfig.TIME_OUT_DEFAULT;
		//设置默认超时时间
		if(element.element("head").element("timeout")!=null&&StringUtils.isNotBlank(element.element("head").element("timeout").getText())){
			try{
				timeout=Integer.valueOf(element.element("head").element("timeout").getText());
			}catch(Exception e){
				
			}
		}
		headNode.setWebsiteId(websiteId);
		headNode.setWebsiteName(websiteName);
		headNode.setWebsiteUrl(websiteUrl);
		headNode.setTimeout(timeout);
		return headNode;
	}
}

package com.newkdd.web.selenium;

import org.dom4j.Element;
/**
 * 爬虫单节点的配置规则信息
 * @author Mike
 *
 */
public class CrawlerNode {
	/**
	 * 值类型[List:数组;Null:字符串]
	 */
	private String type;
	/**
	 * 元素定位对应的XPath
	 */
	private String xpath;
	/**
	 * 转换后的属性名称,例如[sex:男]，则name为sex
	 */
	private String name;
	/**
	 * 属性值获取的来源[src,href,text,value,location]
	 */
	private String value;
	/**
	 * 该元素对应的事件[redirect]
	 */
	private String method;
	
	/**
	 * 需要执行的脚步
	 */
	private String script;
	/**
	 * 元素去重依据
	 */
	private String distinct;
	/**
	 * 
	 */
	private Element element;

	public String getType() {
		return type;
	}

	public void setType(String type) {
		this.type = type;
	}

	public String getXpath() {
		return xpath;
	}

	public void setXpath(String xpath) {
		this.xpath = xpath;
	}

	public String getName() {
		return name;
	}

	public void setName(String name) {
		this.name = name;
	}

	public String getValue() {
		return value;
	}

	public void setValue(String value) {
		this.value = value;
	}

	public String getMethod() {
		return method;
	}

	public void setMethod(String method) {
		this.method = method;
	}

	public String getDistinct() {
		return distinct;
	}

	public void setDistinct(String distinct) {
		this.distinct = distinct;
	}
	
	public static  CrawlerNode parse(Element element){
		CrawlerNode crawlerNode=new CrawlerNode();
		crawlerNode.element=element;
		String type=(element.attribute("type")==null?"":element.attribute("type").getValue());
		crawlerNode.setType(type);
		String xpath=(element.attribute("xpath")==null?"":element.attribute("xpath").getValue());
		crawlerNode.setXpath(xpath);
		String name=element.getName();
		crawlerNode.setName(name);
		String value=(element.getText()==null?"":element.getText());
		crawlerNode.setValue(value);
		String method=(element.attribute("method")==null?"":element.attribute("method").getValue());
		crawlerNode.setMethod(method);
		String script=((element.element("script")==null||element.element("script").getText()==null)?"":element.element("script").getText());
		crawlerNode.setScript(script);
		String distinct=(element.attribute("distinct")==null?"":element.attribute("distinct").getValue());
		crawlerNode.setDistinct(distinct);
		return crawlerNode;
	}
	
	public String getScript() {
		return script;
	}

	public void setScript(String script) {
		this.script = script;
	}

	public Element getElement() {
		return element;
	}

	public void setElement(Element element) {
		this.element = element;
	}

	@Override
	public String toString() {
		return "CrawlerNode [type=" + type + ", xpath=" + xpath + ", name=" + name + ", value=" + value + ", method="
				+ method + ", distinct=" + distinct + "]";
	}

}

第三步，解析配置文件，并实现数据抓取

package com.newkdd.web.selenium;

import java.io.File;
import java.io.FileWriter;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Date;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map.Entry;
import java.util.concurrent.TimeUnit;

import org.apache.commons.lang3.StringUtils;
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
import org.openqa.selenium.By;
import org.openqa.selenium.JavascriptExecutor;
import org.openqa.selenium.TimeoutException;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebDriverException;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.firefox.FirefoxDriver;

import net.sf.json.JSONArray;
import net.sf.json.JSONObject;

public class CrawlerMain {
	/** 时间格式化工具 */
	private final static SimpleDateFormat dateFormat = new SimpleDateFormat("yyyy-MM-dd hh:mm:ss");
	/** 浏览器驱动 */
	private static WebDriver driver;
	/** 爬虫分析结果 */
	private static JSONObject resultJson = new JSONObject();
	/**缓存单个站点抓取过的URL结合*/
	private static List urls = new ArrayList();
	/**站点的配置信息*/
	private static CrawlerHead headNode;
	/**
	 * 测试
	 * 
	 * @param args
	 */
	public static void main(String[] args) {
		System.out.println("//抓取开始时间 \t start:" + dateFormat.format(new Date()));
		try {
			parse("Crawler.xml");
		} catch (Exception e) {
			e.printStackTrace();
		}
		System.out.println("//抓取结束时间 \t end:" + dateFormat.format(new Date()));
	}

	public static void parse(String xml) throws Exception {
		// Dom4j解释Xml文档
		String fileName = CrawlerMain.class.getResource(xml).getPath();
		SAXReader reader = new SAXReader();
		Document document = reader.read(new File(fileName));
		// 获取根节点
		Element root = document.getRootElement();
		try {
			headNode=CrawlerHead.parse(root);
			resultJson.put("head", JSONObject.fromObject(headNode));
			//启动浏览器
			System.setProperty("webdriver.firefox.bin", CrawlerConfig.WEB_DRIVER_PATH);
			driver = new FirefoxDriver();
			//加载网站首页
			load(headNode.getWebsiteUrl());
			// 缓存处理，用于去重操作
			urls = new ArrayList();
			// 开始解析配置文件中的对象
			Element content = root.element("content");
			resultJson = parse(content, resultJson);
			System.out.println(resultJson.toString());
			write(resultJson.toString());
		} catch (Exception e) {
			System.out.println(e.getMessage());
		} finally {
			driver.close();
		}
	}
	
	public static void write(String json){
        FileWriter fw = null;
        try {
        	File jsonFile=new File(CrawlerMain.class.getResource("/").getPath()+headNode.getWebsiteId()+"["+System.currentTimeMillis()+"]"+".json");
            if(jsonFile.exists()){
            	jsonFile.delete();
            }
            jsonFile.createNewFile();
        	fw = new FileWriter(jsonFile);
            fw.write(json); 
            fw.close();
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            try {
                fw.close();
            } catch (Exception e) { 
                e.printStackTrace();
            }   
        }
	}
	
	/**
	 * 无限循环，解析规则
	 * @param parentElement * 配置规则
	 * @param inputJson * 上次拼装完成的JSON串
	 * @return
	 */
	@SuppressWarnings("unchecked")
	public static JSONObject parse(Element parentElement, JSONObject inputJson) {
		// 循环XML
		for (Iterator it = parentElement.elementIterator(); it.hasNext();) {
			Element element = it.next();
			//获取属性的获取配置规则
			CrawlerNode crawlerNode = CrawlerNode.parse(element);
			//忽略的节点信息，不予以解析
			if(CrawlerConfig.NODE_IGNORE.contains(crawlerNode.getName().toUpperCase())){
				continue;
			}
			//未配置默认获取单值属性
			if(StringUtils.isBlank(crawlerNode.getType())){
				inputJson.put(crawlerNode.getName(), parseObject(crawlerNode).get(crawlerNode.getName()));
			}
			//解析数组属性
			else if (CrawlerConfig.NODE_TYPE.LIST.toString().equals(crawlerNode.getType().toUpperCase())) {
				inputJson.put(crawlerNode.getName(), parseList(crawlerNode));
			}
			//解析单值属性
			else {
				inputJson.put(crawlerNode.getName(), parseObject(crawlerNode).get(crawlerNode.getName()));
			}
		}
		return inputJson;
	}
	/**
	 * 解析单值属性
	 * @param crawlerNode * 配置规则
	 * @return
	 */
	private static JSONObject parseObject(CrawlerNode crawlerNode){
		JSONObject jsonObject=new JSONObject();
		//解析数值
		jsonObject= htmlValue(crawlerNode);
		//解析子属性
		if (crawlerNode.getElement().elements().size() > 0) {
			parse(crawlerNode.getElement(), jsonObject.getJSONObject(crawlerNode.getName()));
		}
		return jsonObject;
	}
	
	/**
	 * 解析数组属性
	 * @param crawlerNode * 配置信息
	 * @return
	 */
	private static JSONArray parseList(CrawlerNode crawlerNode){
		JSONArray jsonArray = new JSONArray();
		//解析子属性
		if (crawlerNode.getElement().elements().size() > 0) {
			// 元素个数可以确认
			if (StringUtils.isNotBlank(crawlerNode.getXpath())) {
				parseListByXpath(jsonArray,crawlerNode);
			}
			// 元素不能确认，通过脚步的方式执行
			else if (StringUtils.isNotBlank(crawlerNode.getScript())) {
				parseListByScript(jsonArray,crawlerNode);
			}
		}
		//解析数组属性
		else {
			jsonArray = htmlValues(crawlerNode);
		}
		return jsonArray;
	}
	/**
	 * 根据XPath方式解析集合信息
	 * @param jsonArray
	 * @param crawlerNode
	 */
	private static void parseListByXpath(JSONArray jsonArray,CrawlerNode crawlerNode){
		java.util.Map webElements = getWebElements(crawlerNode.getXpath(),
				crawlerNode.getDistinct());
		for (Entry entry : webElements.entrySet()) {
			JSONObject jsonObject = new JSONObject();
			if (StringUtils.isNotBlank(crawlerNode.getMethod())
					&& "redirect".toUpperCase().equals(crawlerNode.getMethod().toUpperCase())) {
				if (urls.contains(entry.getKey())) {
					continue;
				}
				urls.add(entry.getKey());
				load(entry.getKey());
			}
			jsonObject = parse(crawlerNode.getElement(), jsonObject);
			jsonArray.add(jsonObject);
		}
	}
	/**
	 * 根据JavaScript的方式解析集合信息
	 * @param jsonArray
	 * @param crawlerNode
	 */
	private static void parseListByScript(JSONArray jsonArray,CrawlerNode crawlerNode){
		//缓存链接地址
		List tempURLs=new ArrayList();
		while (true) {
			Boolean loaded;
			if(!tempURLs.contains(driver.getCurrentUrl())){
				tempURLs.add(driver.getCurrentUrl());
			}
			//根据脚步切换页面
			try {
				loaded = (Boolean) ((JavascriptExecutor) driver).executeScript(crawlerNode.getScript());
			} catch (WebDriverException e) {
				loaded = false;
			}
			//分页结束退出循环
			if (!loaded) {
				break;
			}
		}
		//集合
		for(String url:tempURLs){
			load(url);
			JSONObject jsonObject = new JSONObject();
			jsonObject = parse(crawlerNode.getElement(), jsonObject);
			jsonArray.add(jsonObject);
			urls.add(url);
		}
	}
	/**
	 * 加载URL地址，默认超时时间为5秒
	 * 
	 * @param url
	 */
	public static void load(String url) {
		try {
			driver.manage().timeouts().pageLoadTimeout(headNode.getTimeout(), TimeUnit.SECONDS);
			driver.get(url);
		} catch (TimeoutException e) {
			System.out.println("time out of "+headNode.getTimeout()+" S :" + url);
			((JavascriptExecutor) driver).executeScript("window.stop()");
		} finally {
			injectjQueryIfNeeded();
		}
	}

	/**
	 * 加载URL地址，指定页面加载超时时间
	 * 
	 * @param url
	 *            * 需要加载的地址
	 * @param timeout
	 *            * 页面加载超时时间，单位秒
	 */
	public static void load(String url, Integer timeout) {
		if (null == timeout) {
			timeout = headNode.getTimeout();
		}
		try {
			driver.manage().timeouts().pageLoadTimeout(timeout, TimeUnit.SECONDS);
			driver.get(url);
		} catch (TimeoutException e) {
			System.out.println("time out of "+timeout+" S :" + url);
			// 超时停止浏览器加载
			((JavascriptExecutor) driver).executeScript("window.stop()");
		}
	}

	/**
	 * 获取单值
	 * 
	 * @param jsonObject
	 * @param crawlerNode
	 * @return
	 */
	public static JSONObject htmlValue(CrawlerNode crawlerNode) {
		JSONObject jsonObject = new JSONObject();
		if(null==crawlerNode.getValue()){
			jsonObject.put(crawlerNode.getName(),  new JSONObject());
		}else if (CrawlerConfig.NODE_VALUE_FROM.LOCATION.toString().equals(crawlerNode.getValue().toUpperCase())) {
			jsonObject.put(crawlerNode.getName(), driver.getCurrentUrl());
		}else if (StringUtils.isNotBlank(crawlerNode.getXpath())) {
			try {
				WebElement webElement = driver.findElement(By.xpath(crawlerNode.getXpath()));
				if (CrawlerConfig.NODE_VALUE_FROM.TEXT.toString().equals(crawlerNode.getValue().toUpperCase())) {
					jsonObject.put(crawlerNode.getName(),webElement.getText());
				} else {
					jsonObject.put(crawlerNode.getName(),webElement.getAttribute(crawlerNode.getValue()));
				}
			} catch (Exception e) {

			}
		}else{
			jsonObject.put(crawlerNode.getName(),  new JSONObject());
		}
		return jsonObject;
	}

	/**
	 * 获取集合
	 * 
	 * @param crawlerNode
	 * @return
	 */
	public static JSONArray htmlValues(CrawlerNode crawlerNode) {
		JSONArray result = new JSONArray();
		if (StringUtils.isNotBlank(crawlerNode.getXpath())) {
			try {
				List collection = new ArrayList();
				List webElements = driver.findElements(By.xpath(crawlerNode.getXpath()));
				for (int i = 0; i < webElements.size(); i++) {
					WebElement webElement = webElements.get(i);
					//未配置值从哪里获取
					if(StringUtils.isBlank(crawlerNode.getValue())){
						collection.add("");
					}
					//值为Text文本
					else if (CrawlerConfig.NODE_VALUE_FROM.TEXT.toString().equals(crawlerNode.getValue().toUpperCase())) {
						if (!collection.contains(webElement.getText())) {
							collection.add(webElement.getText());
						}
					}
					//值为属性值
					else {
						if (!collection.contains(webElement.getAttribute(crawlerNode.getValue()))) {
							collection.add(webElement.getAttribute(crawlerNode.getValue()));
						}
					}
				}
				result = JSONArray.fromObject(collection);
			} catch (Exception e) {

			}
		}
		return result;
	}

	/**
	 * 获取WebElements,根据值进行去重处理
	 * 
	 * @param xpath
	 * @param distinctValue
	 * @return
	 */
	public static java.util.Map getWebElements(String xpath, String distinctValue) {
		java.util.Map map = new HashMap();
		if (StringUtils.isNotBlank(xpath)) {
			List webElements = driver.findElements(By.xpath(xpath));
			int index = 0;
			for (int i = 0; i < webElements.size(); i++) {
				WebElement webElement = webElements.get(i);
				if (StringUtils.isBlank(distinctValue)) {
					index++;
					map.put(index + "", webElement);
				} else {
					map.put(webElement.getAttribute(distinctValue), webElement);
				}
			}
		}
		return map;
	}

	/**
	 * 加载必要的插件[jQuery]
	 */
	public static void injectjQueryIfNeeded() {
		if (!jQueryLoaded()) {
			injectjQuery();
		}
	}

	/**
	 * 如果没有加载，从官网加载jQuery
	 * 
	 * @return
	 */
	public static Boolean jQueryLoaded() {
		Boolean loaded;
		try {
			loaded = (Boolean) ((JavascriptExecutor) driver).executeScript("return " + "jQuery()!=null");
		} catch (WebDriverException e) {
			loaded = false;
		}
		return loaded;
	}

	/**
	 * 注入jQuery
	 */
	public static void injectjQuery() {
		((JavascriptExecutor) driver).executeScript(" var headID = " + "document.getElementsByTagName(\"head\")[0];"
				+ "var newScript = document.createElement('script');" + "newScript.type = 'text/javascript';"
				+ "newScript.src = " + "'"+CrawlerConfig.JQUERY_PATH+"';"
				+ "headID.appendChild(newScript);");
	}

}

最终上POM


  4.0.0
  com.newkdd.web
  Crawler
  0.0.1-SNAPSHOT
  
  
  
  	
	    org.seleniumhq.selenium
	    selenium-java
	    2.53.1
	
	
 	
	    dom4j
	    dom4j
	    1.6.1
	
	
	  
	    xml-apis  
	    xml-apis  
	    1.4.01  
	 
	
	
        net.sf.json-lib
        json-lib
        2.4
        jdk15

完整代码，下载地址：https://git.oschina.net/newkdd/Crawler

Java24的新特性 hello_ejb3 redis 数据库 java
Java语言特性系列Java5的新特性Java6的新特性Java7的新特性Java8的新特性Java9的新特性Java10的新特性Java11的新特性Java12的新特性Java13的新特性Java14的新特性Java15的新特性Java16的新特性Java17的新特性Java18的新特性Java19的新特性Java20的新特性Java21的新特性Java22的新特性Java23的新特性Java2
JavaScript 性能优化实战：优化循环结构提升效率 deying0865423 javascript 开发语言
目录一、理解循环的性能损耗二、减少循环迭代次数（一）缓存数组长度（二）提前终止循环三、优化循环内部操作（一）避免在循环内执行复杂计算（二）减少DOM操作四、选择合适的循环类型（一）for循环与while循环的选择（二）for...in与for...of的使用场景在JavaScript编程中，循环结构是实现重复执行任务的基础工具。然而，不当的循环使用常常会导致性能瓶颈，特别是在处理大量数据时，循环的
漫谈jvm 另一个绝影 JVM 漫谈jvm
背景介绍jvm已经是Java开发的必备技能了，jvm相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台无关的代码格式，class文件按照jvm规范，包括了java代码运行的数据和代码等内容。jvm加载class文件后，就可以执行java代码了。JVM有不同
漫谈JVM weixin_34111790 运维 java python
2019独角兽企业重金招聘Python工程师标准>>>背景介绍创建了一个技术类公众号:一起源码分析，里面会分享最新的开源代码、源码解读、开发技巧等，欢迎大家关注。JVM已经是Java开发的必备技能了，JVM相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台
流浪地球 - 华为OD机试真题(E卷、Java) 什码情况华为od java 数据结构算法面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
模板方法模式烟沙九洲设计模式模板方法模式 java
模板方法（TemplateMethod）模式属于行为型模式的一种。模板方法模式定义了一个操作中的算法骨架，并将一些步骤延迟到子类中实现。模板方法模式的核心思想是：父类定义骨架，子类实现某些细节。模板方法模式允许子类在不改变算法结构的情况下，重新定义算法中的某些特定步骤。Java标准库有很多模板方法模式的应用。比如集合类中的AbstractList、AbstractQueuedSynchronize
[开题报告]Springboot高校图书管理系统设计与实现lq627计算机毕业设计卓越计算机毕设课程设计
本项目包含程序+源码+数据库+LW+调试部署环境，文末可获取一份本项目的java源码和数据库参考。开题报告研究背景：随着高校图书馆的规模不断扩大和信息化程度的提高，传统的手工管理方式已经无法满足日益增长的图书馆资源管理需求。图书管理系统的设计与实现成为了解决这一问题的关键。通过引入计算机技术和信息管理系统，可以提高图书馆的管理效率和服务质量，为读者提供更便捷、高效的借阅体验。研究意义：图书管理系统
【重温设计模式】访问者模式及其Java示例万猫学社重温设计模式及其Java实现设计模式访问者模式 java
访问者模式的基本概念访问者模式，一种行为型设计模式，其基本定义是：允许一个或者多个操作应用到一组对象上，解耦操作和对象的具体类，使得操作的添加可以独立于对象的类结构变化。在面向对象编程中，访问者模式的重要性不言而喻。它将数据操作和数据结构分离，使得在不改变数据结构的前提下，可以添加新的操作，从而增强了系统的灵活性和可扩展性。在访问者模式中，数据结构是稳定的，而操作是易变的。这就像一座博物馆，展品（
COMP 315: Cloud Computing for E-Commerce W_X_99515681 开发语言
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
【Docker系列四】Docker 网络 Kwan的解忧杂货铺@新空间代码工作室 s4 Docker系列 docker 网络容器
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
Vue3前端开发：组件化设计与状态管理 caihuayuan4 面试题汇总与解析 spring sql java 大数据课程设计
Vue3前端开发：组件化设计与状态管理一、Vue3组件化设计组件基本概念与特点是一款流行的JavaScript框架，它支持组件化设计，这意味着我们可以将页面分解成多个独立的组件，每个组件负责一部分功能，通过组件的嵌套和复用，可以快速构建复杂的用户界面。组件化设计具有以下特点：组件示例组件选项在上面的代码示例中，我们通过Vue.component方法注册了一个名为my-component的组件，这是
AJAX（Asynchronous JavaScript and XML）详解与应用风亦辰739 javascript ajax xml
一、什么是AJAX？AJAX（AsynchronousJavaScriptandXML，异步JavaScript和XML）是一种用于创建异步Web应用程序的技术。它可以在不重新加载整个网页的情况下，与服务器进行数据交换，从而提供更好的用户体验。1.1AJAX的核心特点异步通信：数据请求不会阻塞页面，提升用户体验。减少服务器负担：只获取需要的数据，减少流量。提升用户体验：网页响应速度更快，减少页面刷
java选择语句 FAQEW java
Java选择结构深度解析一、if结构体系1.单条件判断//基础if结构intscore=85;if(score>=60){System.out.println("考试通过");}//判断空值（防御性编程）Stringtext=null;if(text!=null&&!text.isEmpty()){System.out.println(text.length());}执行流程：truefalse条
Unity 与 JavaScript 的通信交互：实现跨平台的双向通信 Front_Yue 3D技术实践指南 unity javascript 3d
前言在现代游戏开发和Web应用中，Unity和JavaScript的结合越来越常见。Unity是一个强大的跨平台游戏引擎，而JavaScript是Web开发的核心技术之一。通过Unity和JavaScript的通信交互，开发者可以实现从Unity到Web页面的功能扩展，或者从Web页面控制Unity的行为。这种双向通信的能力为开发者提供了更多的可能性，例如在Unity中嵌入Web视图，或者在Web
Java有哪些编程技巧？ java
Java编程技巧：提升效率与质量的实用指南在Java编程中，掌握一些高效的编程技巧不仅可以提高开发效率，还能提升代码的可读性、可维护性和性能。以下是一些实用的Java编程技巧，供开发者参考和应用。一、代码优化技巧（一）合理使用数据类型选择合适的数据类型：根据实际需求选择合适的数据类型。例如，如果只需要存储整数，且数值范围较小，可以使用int而不是long，以节省内存。使用包装类时需谨慎：Java的
Sa-Token v1.20.0 发布，新增临时Token认证
框架介绍Sa-Token是一个轻量级Java权限认证框架，主要解决：登录认证、权限认证、分布式Session会话、单点登录、OAuth2.0等一系列权限相关问题。框架针对踢人下线、自动续签、前后台分离、分布式会话……等常见业务进行N多适配，通过sa-token，你可以以一种极简的方式实现系统的权限认证部分Sa-Tokenv1.20.0版本更新包括以下内容：新增：新增Solon适配插件，感谢大佬@刘
关于Java的变量和常量的应用 MOSCATO, 新手 java 开发语言
在Java语言中，关于数据的存储和其他语言都大差不差，都是在磁盘中找到一个位置，把数据放进去，然后给这个位置做上标记，以便后续的查找，只不过各种语言都有自己的查找和标记的方式，这里讲到的Java则是通过JVM（Java虚拟机）来实现这个功能。话跑偏了，接下来是Java常量的介绍常量的定义在Java中，常量通常通过final关键字修饰。一旦被赋值后，其值就不能被修改。例如：finalintMAX_V
JavaScript反爬技术解析与应对不做超级小白 web逆向知识碎片 web前端 javascript 开发语言 ecmascript
JavaScript反爬技术解析与应对前言在当今Web爬虫与数据抓取的生态环境中，网站运营方日益关注数据安全与隐私保护，因此逐步采用多种反爬技术来限制非授权访问。本文从JavaScript角度出发，深入剖析主流反爬策略的技术原理，并探讨相应的绕过方案，以期为研究者和开发者提供系统性的理解与实践指导。1.JavaScript反爬技术概述1.1右键禁用与开发者工具防护部分网站采用JavaScript拦
Java：从入门到创新 java
Java：从入门到创新一、Java简介Java是一种广泛使用的高级编程语言，自1995年首次发布以来，一直深受开发者的喜爱。它由SunMicrosystems公司开发，后来被Oracle公司收购。Java的设计目标是简单、健壮、安全且跨平台，这些特性使其在企业级应用开发中占据重要地位。二、Java的主要特点（一）简单易学Java的语法与C语言和C++语言很接近，但丢弃了C++中一些复杂且容易出错的
[代码规范]1_良好的命名规范能减轻工作负担啾啾大学习编程通用代码规范 Java命名规范命名规范长命名方案
欢迎来到啾啾的博客，一个致力于构建完善的Java程序员知识体系的博客，记录学习的点滴，分享工作的思考、实用的技巧，偶尔分享一些杂谈。欢迎评论交流，感谢您的阅读。目录引言命名——提炼含义减少注释类名命名接口与实现类的命名方法命名的最佳实践1.方法名的结构2.参数与返回值的隐含3.避免缩写4.逻辑与副作用的体现5.条件判断方法长命名处理——实战答疑处理方法1.利用上下文环境简化名称2.使用领域术语或缩
GIS三维可视化进阶：Three.js集成Cesium引擎实现全球地形LOD与OGC标准服务调用贝格前端工场 javascript 开发语言 ecmascript
Three.js与Cesium引擎基础介绍Three.js是一款基于JavaScript的开源三维图形库，它提供了丰富的API用于创建和操作三维场景、物体、材质等。在Web端的三维可视化领域应用广泛，因其能够在浏览器中高效渲染复杂的三维模型和场景，大大降低了开发人员创建三维交互内容的门槛。通过简单的代码，即可实现如创建三维几何体（立方体、球体等）、为物体添加材质（如纹理材质、光照材质）以及设置相机
java语言map的五种遍历方法 0319zz Java细节 java 开发语言
publicstaticvoidmain(String[]args){Mapmap=newHashMapentry:map.entrySet()){Stringkey=entry.getKey();Integervalue=entry.getValue();System.out.println("Key:"+key+",Value:"+value);}//第二种：使用for-each循环和keyS
「JavaScript深入」Socket.IO：基于 WebSocket 的实时通信库八了个戒 JavaScript系列面试宝典大前端 javascript websocket 开发语言前端
Socket.IOSocket.IO的核心特性Socket.IO的架构解析Socket.IO的工作流程Socket.IO示例：使用Node.js搭建实时聊天服务器1.安装Socket.IO2.服务器端代码（Node.js）3.客户端代码（HTML+JavaScript）4.房间功能高级功能实现1.命名空间2.中间件3.二进制传输性能优化策略1.负载均衡2.资源管理3.监控与调试安全与可靠性1.安全
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
java简单的小程序_编写一个简单的入门java小程序雷幺幺 java简单的小程序
1.创建一个java程序的步骤a打开editplus软件，选择左上角的file选项，在弹出来的菜单中选择new然后再从弹出来的菜单中选择normaltextb按住ctrl+s快捷键，保存。1选择要保存的位置2给文件命名(以大写的字母开头)3选择文件的后缀，以.java后缀结尾c进行代码的编写，所有字符我们必须都是英文输入状态下的d打开控制台(win+r在弹出左下角的命令行中输入cmd)e找到jav
Java基础7（解耦、引入工厂模式、代理设计模式、适配器设计模式、内部类）孤影恋长风 java
类设计的注意事项：类的设计主要是父类的设计子类最好不要继承一个已经完全实现的类，因为一旦发达向上转型，所调用的方法，一定是被子类覆盖过的方法，所以只会继承抽象类和接口。解耦耦合度是什么？两个对象之间相互依赖的程度，是衡量代码独立性的一个指标。软件开发追求高/低耦合度？软件开发追求低耦合度怎么才能降低代码的耦合度？降低代码的耦合度是一个非常重要的实践，它有助于提高代码的可维护性、可读性和可扩展性。引
LeetCode 21Merge Two Sorted Lists 合并两个排序链表 Java 我欲混吃与等死 LeetCode leetcode 链表 java
题目：将两个已排序的链表合并在一起。举例1：输入：list1=[1,2,4],list2=[1,3,4];输出：[1,1,2,3,4,4];举例2：输入：list1=[],list2=[];输出：[]举例3：输入：list1=[],list2=[0];输出：[0]解题思路：遍历两个链表，比较节点值来合并链表，当其中一个链表遍历完成时，将另一个链表剩余部分拼入新链表。/***Definitionfo
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

Selenium 实现的网络爬虫

你可能感兴趣的:(Java)