0果子分你一半

一篇关于java爬虫实现的技术分享

最近由于工作的需要，独自开始研究爬虫爬取互联网数据；经过两周左右的探究，踩过许多坑，也学习到了许多以往不知道的知识。

一直都在做伸手党，很是惭愧_(:_」∠)_感觉都要脸红了☺，在这里总结一下经验，顺便分享给大家，希望可以帮助到有需要的朋友。爬虫技术不是很成熟，如果能有大佬能够不吝赐教那就更好啦~

在网上找了许多资料，爬虫工具大多是用python实现的；因为本身是学java出身，虽说python比java容易，但也没更多时间去学习新的语言了。最终还是选择了用java来实现，废话不多说⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄下面进入正题。

本篇爬虫技术分享是用java+selenium+phantomjs在windows环境中运行，实现了爬取百度的搜索结果。

首先借用网络上的资料来介绍下两个小工具：

selenium

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Mozilla Suite等。这个工具的主要功能包括：测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建衰退测试检验软件功能和用户需求。支持自动录制动作和自动生成。Net、Java、Perl等不同语言的测试脚本。Selenium 是ThoughtWorks专门为Web应用程序编写的一个验收测试工具。

selenium的使用：

maven配置好就可以自动下载，配置如下

org.seleniumhq.selenium

selenium-java

2.48.0

自动下载了以下jar包，只用到部分

selenium-java-2.48.0.jar

selenium-chrome-driver-2.48.0.jar

selenium-remote-driver-2.48.0.jar

selenium-edge-driver-2.48.0.jar

selenium-htmlunit-driver-2.48.0.jar

selenium-firefox-driver-2.48.0.jar

selenium-ie-driver-2.48.0.jar

selenium-safari-driver-2.48.0.jar

selenium-support-2.48.0.jar

selenium-leg-rc-2.48.0.jar

如需直接使用jar包请去http://www.seleniumhq.org/download/ 官网中下载。

官网被墙可以移步这里下载http://selenium-release.storage.googleapis.com/index.html?path=3.5/

selenium的使用一般搭配浏览器驱动，这里提供chrome浏览器驱动的下载地址http://chromedriver.storage.googleapis.com/index.html

selenium使用中可能会遇到的调用报错的问题，很大的原因是浏览器驱动与浏览器不兼容，以下是chrome浏览器驱动与浏览器兼容的版本对应关系表，根据本地的chrome浏览器下载对应版本的chromedriver

下载完后把压缩包中的chromedriver.exe放入正常的谷歌浏览器安装目录，与chrome.exe同目录中就可以了

phantomjs

（1）一个基于webkit内核的无头浏览器，即没有UI界面，即它就是一个浏览器，只是其内的点击、翻页等人为相关操作需要程序设计实现。

（2）提供JavaScript API接口，即通过编写js程序可以直接与webkit内核交互，在此之上可以结合Java语言等，通过java调用js等相关操作，从而解决了以前c/c++才能比较好的基于webkit开发优质采集器的限制。

（3）提供windows、Linux、mac等不同os的安装使用包，也就是说可以在不同平台上二次开发采集项目或是自动项目测试等工作。

phantomjs 的官网api——API | PhantomJS

phantomjs的使用：

phantomjs官网下载地址http://phantomjs.org/download.html

下载完后是一个压缩包，直接解压即可，解压完后把phantomjs的bin路径配置到系统环境变量path中，配置完后cmd测试出现以下信息则已经可以使用

本篇中的爬虫，整体流程比较简单，细节部分需要多多注意，源码中都有注释，大致如下：

类中导包信息：

import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;

import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.openqa.selenium.By;
import org.openqa.selenium.OutputType;
import org.openqa.selenium.TakesScreenshot;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.support.ui.ExpectedConditions;
import org.openqa.selenium.support.ui.WebDriverWait;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import jxl.Cell;
import jxl.Sheet;
import jxl.Workbook;

流程开始

1.首先读取excel文件，读取excel中的搜索条件

贴出源码：

	public static List readExcel(String excelFilePath){
		List contents = new ArrayList();
                InputStream in = null;
		try {
		// 1、构造excel文件输入流对象  
	        in = new FileInputStream(excelFilePath);  
	        // 2、声明工作簿对象  
	        Workbook rwb = Workbook.getWorkbook(in);  
	        // 3、获得工作簿的个数,对应于一个excel中的工作表个数  
	        rwb.getNumberOfSheets(); 
	        
	        // 使用索引形式获取第一个工作表，也可以使用rwb.getSheet(sheetName);其中sheetName表示的是工作表的名称
	        Sheet oFirstSheet = rwb.getSheet(0);  
	        int rows = oFirstSheet.getRows();//获取工作表中的总行数，排除第一行
	        int columns = oFirstSheet.getColumns();//获取工作表中的总列数 
	        for (int i = 1; i < rows; i++) {  
	            for (int j = 0; j < columns; j++) {  
	                Cell oCell = oFirstSheet.getCell(j,i);//需要注意的是这里的getCell方法的参数，第一个是指定第几列，第二个参数才是指定第几行
	                String companyName = oCell.getContents();
	                
	                //判断当前文件夹是否已存在(已经完成爬取)，如存在则不加入爬取列表中
	                String txtUrl = ThirdPartyProperties.FILEPROFIX + companyName + "/result";//文件路径
	                
	                File file = new File(txtUrl);
			File fileParent = file.getParentFile();
			//文件路径存在则跳过
			if(fileParent.exists()){
				log.info(companyName+"-已经爬取完成，不再加入爬取列表中");
			}else{
				contents.add(companyName);
			}
	            }  
	        }
		} catch (Exception e) {
			log.error(e.getMessage(),e);
		} finally {
			if(null != in){
				try {
					in.close();
				} catch (Exception e2) {
					log.error(e2.getMessage(),e2);
				}
			}
		}
		return contents;
	}

2.使用selenium调用chrome浏览器访问百度，获取到页面元素后模拟输入搜索条件并且百度一下进入搜索结果页，并且获取前count条查询结果的url

贴出源码：

       public static String[] getLinkBySelenium(String keyWord, int count){
		WebDriver driver = null;
		String[] url = new String[count];
		try {
		// 设置 ie 的路径  
//	        System.setProperty("webdriver.ie.driver", "C:\\Program Files\\Internet Explorer\\IEDriverServer.exe");
		// 设置 chrome 的路径  
	        System.setProperty("webdriver.chrome.driver", "你浏览器驱动的全路径");
	        // 创建一个 ie 的浏览器实例  
//	        driver = new InternetExplorerDriver();
	        // 创建一个 chrome 的浏览器实例
	        driver = new ChromeDriver();
		//最大化
		driver.manage().window().maximize();
		//访问百度
		driver.get("http://www.baidu.com");
		//根据页面元素 xpath ，右键元素可获取//*[@id="kw"],这是百度的输入框
		WebElement element = driver.findElement(By.xpath("//*[@id=\"kw\"]"));
		element.sendKeys(keyWord);
		//根据id获取元素 su ，百度一下的按钮
		element = driver.findElement(By.id("su"));
		//点击
		element.click();
			
		//等待5秒，等第count条查询结果加载完
		WebDriverWait wait = new WebDriverWait(driver, 5);
			
	        //等待搜索结果加载完毕，如果报错，说明等待时间过长或者没有搜索结果(百度搜索结果div主键为1,2,3...)
	        try {
		        wait.until(ExpectedConditions.presenceOfElementLocated(By.id(count+"")));
		} catch (Exception e) {
			log.error(keyWord+"，该公司百度超时或没有"+count+"条搜索结果---");
		}
	        /**截图保存*/
	        //截图路径
	        String imageUrl = "你要保存截图的路径" + keyWord + "/screenshot.png";//截图路径
	        //指定了OutputType.FILE做为参数传递给getScreenshotAs()方法，其含义是将截取的屏幕以文件形式返回。
	        File srcFile = ((TakesScreenshot)driver).getScreenshotAs(OutputType.FILE);
	        //利用FileUtils工具类的copyFile()方法保存getScreenshotAs()返回的文件对象。
	        FileUtils.copyFile(srcFile, new File(imageUrl));
			
	        for (int i = 1; i <= count; i++) {
	        	//获取页面加载的第一条搜索结果
			WebElement div = driver.findElement(By.id(i+"")).findElement(By.tagName("h3")).findElement(By.tagName("a"));
			//部分公司百度没有搜索结果，在此跳出处理
			if(null == div){
				continue;
			}
			url[i-1] = div.getAttribute("href");
			}
			
		} catch (Exception e) {
			log.error(e.getMessage(),e);
		} finally {
			//关闭浏览器（这个包括驱动完全退出，会清除内存），close 是只关闭浏览器
			driver.quit();
		}
		return url;
	}

3.调用phantomjs访问获取到的url，截图，并通过输入流拿回需要的数据，写入文件保存本地。

贴出源码：

public static void getParseredHtml2(String companyName, String[] url) throws IOException {

		//获取本地项目路径并处理（windows环境下）
		String projectPath = ReptilianWork.class.getClassLoader().getResource("/").getPath();
		projectPath = projectPath.substring(1, projectPath.length()).replace("classes/", "");
//		String projectPath = "D:/Work/workSpace——eclipse/.metadata/.plugins/org.eclipse.wst.server.core/tmp0/wtpwebapps/JavaReptilian/WEB-INF/";
		//js路径
		String jsPath = projectPath + "js/huicong.js";
		
		Date date = new Date();
		SimpleDateFormat formatter = new SimpleDateFormat("yyyyMMddHHmmss");
		String dateName = formatter.format(date);//名称
		
		String imageSuffix = ".png";
		String txtSuffix = ".txt";
		
		for (int i = 1; i <= url.length; i++) {
			
			InputStream in = null;
			FileWriter writer = null;
			String content = "";
			
			try {
				String imageUrl = "你的存储路径" + companyName + "/result"+i + "/image/";//截图路径
				String txtUrl = "你的存储路径" + companyName + "/result"+i + "/txt/";//文件路径
				
				File file = new File(txtUrl+dateName+txtSuffix);
				File fileParent = file.getParentFile();
				//文件路径存在则跳过
//				if(fileParent.exists()){
//					log.info(companyName+"-已经爬取完成，不再爬取");
//					break;
//				}
				Runtime rt = Runtime.getRuntime();
				log.info("phantomjs访问url="+url[i-1]);
				Process p = rt.exec("phantomjs的安装路径(phantomjs.exe的全路径)" + " " + jsPath + " " + url[i-1] + " " + imageUrl + " " + dateName+imageSuffix);
				in = p.getInputStream();
				
				Document doc = Jsoup.parse(in, "UTF-8", url[i-1]);
				content = doc.body().text();
				
				//文件路径不存在则创建
				if(!fileParent.exists()){
					fileParent.mkdirs();
				}
				//创建文件
				file.createNewFile();
				
				writer = new FileWriter(file);
				if(content!=null && !"".equals(content)){
					writer.write(content);
					log.info("文件写入成功，路径："+txtUrl+dateName+txtSuffix);
				}
				in.close();
				writer.flush();
				writer.close();
			} catch (Exception e) {
				log.error(e.getMessage(),e);
			} finally{
				if(in!=null){
					in.close();
				}
				if(writer!=null){
					writer.close();
				}
			}
		}
	}

以上方法使用了Jsoup来解析java调用phantomjs后拿到的输入流并转成了document对象来操作获取所有文本信息。有关于Jsoup的介绍如下：

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

要使用的话，maven配置如下：

org.jsoup

jsoup

1.8.3

步骤3方法中使用到的huicong.js文件。注意(一定要设置超时时间，否则遇到一些访问连接有问题或者网络问题等，会导致phantomjs卡住，程序会一直等待响应)

system = require('system')  
address = system.args[1];
imageUrl = system.args[2];
imageName = system.args[3];
var page = require('webpage').create();  
var url = address;
var fs = require('fs');
fs.makeDirectory(imageUrl);

//设置超时时间
page.settings.resourceTimeout = 5000; // 5 seconds
page.onResourceTimeout = function(e) {
    console.log(e.errorCode);   // it'll probably be 408
    console.log(e.errorString); // it'll probably be 'Network timeout on resource'
    console.log(e.url);         // the url whose request timed out
    phantom.exit(1);
};

page.open(url, function (status) {  
    //Page is loaded!  
    if (status !== 'success') {  
        console.log('请求失败!url='+url);
        phantom.exit();
    } else {  
            window.setTimeout(function () {
              page.render(imageUrl+imageName);  //截图
              console.log(page.content);
              phantom.exit();
          }, 5000);   
    } 
  });

源码的缩进由于这边编辑器的问题乱了╮(╯▽╰)╭强迫症将就看吧哈哈

调用以上方法的代码就不贴了

大概就是读取到excel中所有的搜索条件后

循环调用getLinkBySelenium，获取到需要爬取的多个url后，调用getParseredHtml2方法

----------------------割一下-----------------------------

以上，就爬取到了百度的部分数据，谢谢大家的阅读

如有问题可以直接提问，本人看到会回答的

这也是第一次分享自己的学习经验~

如果有人关注考虑贴出后面的多线程调用方法，因为phantomjs的访问速度对于需要爬取大量数据来讲实在太慢了（；´д｀）ゞ

如果没人关注，就当自己的学习笔记了

如果对你有用，别忘了点赞_(￣0￣)_[哦~] 告辞~~

45.sentinel自定义异常卷土重来… 微服务 sentinel java 微服务架构
上文提到BlockedbySentinel(flowlimits)限流异常，这样返给用户就不太友好，所以需要自定义异常。默认情况下，发生限流、降级、授权拦截时，都会抛出异常到调用方。如果要自定义异常时的返回结果，需要实现BlockExceptionHandler接口：BlockException有很多子类：packagecom.xkj.org.sentinel;importcom.alibaba.
时间根本用不过来 30度以南
学了一上午的英语做了一下午的图书馆骑个车回来已经8:30本来想工作结果已经11点了真的忙忙的没有时间思考人生很好
WPF——专用枚举器ListBox和ComboBox 寒冰屋 CSharp.NET wpf
目录介绍提供了什么本地定义的枚举器代码EnumItemList集合和EnumItem集合项附加属性使用代码结束语下载控件-141.8KB介绍几天前，我发布了这篇文章，其中描述了一种创建可观察的枚举器值集合的方法，以供在WPF应用程序中使用。在本文中，我将把这个想法带入一个更高的逻辑层次——创建专用于允许选择枚举器值的列表控件。最初的想法是为控件提供对C＃中任何System枚举器的支持。这当然足够了
LangChain 源码剖析（二）：LangChain 流程编排的核心骨架——Chain 基类源码剖析 ATM006 人工智能 langchain 大模型 Agent
每一篇文章都短小精悍，不啰嗦。在LangChain框架中，Chain是连接各种组件（模型、工具、数据库等）的核心骨架，负责将多个步骤按逻辑串联成可执行的工作流。无论是简单的「提问-回答」流程，还是复杂的「检索-思考-工具调用」pipeline，都依赖Chain基类提供的基础能力。本文将从架构设计、核心功能到实现细节，全面解析这一基类的设计智慧。一、架构定位：为什么需要Chain基类？Chain基类
MetaGPT源码剖析（一）：MetaGPT框架下的多智能体协作项目——software_company.py ATM006 开源Agent框架机器智能人工智能大模型源码剖析 Agent MetaGPT
每一篇文章都短小精悍，不啰嗦。software_company.py这段代码是一个基于Typer构建的命令行工具，用于启动MetaGPT框架下的多智能体协作项目（比如生成软件项目、完成开发任务等）。它就像一个"项目启动器"，允许用户通过命令行参数配置项目需求、资源投入等，进而调度不同角色的智能体（如产品经理、架构师、工程师等）协同工作。一、代码整体功能与定位从架构视角看，这段代码是MetaGPT框
京东返利app叫什么?京东返现的软件叫什么名字? 古楼
随着科技的发展和互联网的普及，网上购物已经成为了人们日常生活中不可或缺的一部分。在众多电商平台上，京东作为我国知名的企业之一，吸引了大量消费者。而在京东购物，您是否想过有一种方式可以让您在享受优惠的同时还能拿到返利呢？今天，就让我来为您揭秘京东返利App的秘密！我们要明确一点：京东返利App并不是京东官方推出的。那么，这个神秘的App究竟是什么呢？月入十万必看！都在挣钱！推荐几个月入几千到几万的靠
Java 重写(Override)与重载(Overload) 啊玄呐
重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。方法的重写规则：▣参数列表必须完全与被重写方法的相同。▣返回类型与被重写方法的返回类型可以不相同，但是必须是父类返回值的派生类▣访问权限不能比父类中被重写的方法的访问权限更低。例如：如果父类的一个方法被声明为public，那么在子类中重写该方法就不能声明为protected。▣父类的成员方法只能
历史悬疑之阿房宫是不是项羽烧的叶之林
大家好我是叶之林，今天为大家，了解，分析，阿房宫是不是项羽烧的，喜欢的话点点关注，谢谢史书记载，西楚霸王项羽进入咸阳后，看到如此奢华的秦朝暴君享乐之所，心中大怒，一把火烧了阿房宫。从此人们一直认为阿房宫是项羽烧的，但现在不断有人指出，项羽烧的是秦始皇在咸阳的宫室建筑，而不是阿房宫，项羽究竟有没有烧阿房宫呢，如果没有烧过，那规模宏大的阿房宫又到那里去了，为何消失了呢？唐代著名诗人杜牧在(阿房宫赋)中
欧米茄海马300复刻表多少钱(海马300复刻表价格一览表) 潮品会
欧米茄海马300系列腕表作为欧米茄品牌的经典之作，凭借其卓越的品质、精湛的工艺和时尚的设计，一直备受钟表爱好者的青睐。然而，正品海马300的价格往往较为昂贵，因此，市场上出现了各种复刻表，以满足不同消费者的需求微信:52226813(下单赠送精美礼品)那么，欧米茄海马300复刻表到底多少钱呢？一、价格区间概述欧米茄海马300复刻表的价格因材质、工艺、功能以及复刻程度的不同而有所差异。一般来说，复刻
威海可以做正规亲子鉴定机构大全(附2024权威中心机构名单) 国医基因周主任
威海哪里可以做亲子鉴定？威海市环翠区和平路70号可以做亲子鉴定，为了方便快速找到威海亲子鉴定机构地址，小编特意整理了威海亲子鉴定机构名单供您参考，共有14家正规鉴定机构，排名不分先后。机构推荐如下：注：各鉴定机构的鉴定类别不一样。威海国医基因DNA亲子鉴定中心：威海市环翠区和平路70号威海亲子鉴定机构：1、威海国医基因DNA亲子鉴定中心机构地址：威海市环翠区和平路70号业务范围：个人（隐私）亲子鉴
C# 上位机开发进阶：利用 WinForms 与 WPF 创建智能化工业控制系统威哥说编程 c#wpf 开发语言
随着工业自动化和智能制造的不断发展，上位机系统作为人与机器之间的重要桥梁，已成为工业控制系统中不可或缺的一部分。在上位机系统开发中，C#提供了强大的开发框架，尤其是WinForms和WPF，两者在创建高效、智能化的工业控制系统中扮演着重要角色。本文将深入探讨如何利用C#中的WinForms和WPF构建智能化的工业控制系统，从界面设计、实时数据处理、设备通信协议到性能优化的全面技术方案，助力开发者提
换一种方式吃饭大大妈
吃饭时间，娃说嘴痛不吃饭。阿姨：根本不疼，中午吃得很多，快点过来吃饭！娃仍然不肯，我查看她的舌头，舌尖和舌头底下原先长小泡泡的地方仍有红点。阿姨一直说：哪里还疼，都消很多了。我在想，舌头肯定还是有些不舒服，是真的不大想吃，或者是想跟妈妈撒娇。我：大大，那来吧，妈妈抱一起吃好吗？娃：妈妈我不想吃。我：那今天你喂我吃，我喂你吃好吗？娃马上坐到我腿上：好啊！我：但是你在我前面看不到，等下不要喂到妈妈的鼻
你说时间什么最难得，徒手摘星，爱而不得；世人万千，再难遇我阳光小枫
1、睡一个长长的觉，做一个甜甜的梦，忘掉所有的不开心。晚安~2、但愿所有的美好装满您的梦，祝你今晚好梦，晚安3、你说世间什么最难得，徒手摘星，爱而不得；世人万千，再难遇我。晚安~4、别否定自己，你特别好，特别温柔，特别值得。晚安~5、花开不是为了花落，而是为了开得更加灿烂。加油，遇见最好的自己！晚安！6、做好自己，做不好也没关系，总是要犯点错，人生嘛，总是会有遗憾的。晚安~7、总有些事放不下，让人
2x2矩阵教程
2x2矩阵教程1.简介2x2矩阵是线性代数中的基本概念，用于表示二维线性变换。本教程将介绍如何使用C++实现2x2矩阵的基本运算，包括矩阵加减、乘法、行列式、逆矩阵等操作。2.代码实现2.1头文件(matrix2x2.h)#ifndefMATRIX2X2_H#defineMATRIX2X2_H#include#include#includenamespacemath{namespacelinear
非对称加密算法（RSA、ECC、SM2）——密码学基础
对称加密算法（AES、ChaCha20和SM4）Python实现——密码学基础(Python出现Nomodulenamed“Crypto”解决方案)这篇的续篇，因此实践部分少些；文章目录一、非对称加密算法基础二、RSA算法2.1RSA原理与数学基础2.2RSA密钥长度与安全性2.3RSA实现工具与库2.4RSA的局限性三、椭圆曲线密码学(ECC)3.1ECC原理与数学基础3.2常用椭圆曲线标准3.
十年时光，幸亏遇到你！涂涂0907
图片发自App前几天，去几个准备采访的孩子家里做家访，大多数家庭都是因为重大变故，导致家境困难，孺子可怜。可除了这些，最让我感慨深思的还是那些命运重大考验下百态夫妻们。小强的父亲坐着轮椅，才三十出头，清秀白净，依稀还可以看出健康时也是个俊朗挺拔的男人。如今虽不至于颓废，却也看得出强打精神，勉力支撑这个风雨飘摇的家。四年前，小强的父亲在工地上让重物砸伤了脊椎，导致高位截瘫，一个幸福的家庭间生波澜和风
明天的计划一袋米要抗几楼
起床7:00吃饭7:10~7:15上学7:16~7:40上课8:05~11:35吃饭11:45~12:30睡觉12:35~1:30上课2:05~5:00上课外班5:20~6:30吃饭6:45~8:30打羽毛球8:35~9:50睡觉10:30~第二天早上7:00
打字赚钱一小时50元，打字兼职一单一结无需任何费用配音新手圈
【专业招聘公告】高薪打字兼职招募启事职位亮点：-时薪优渥：我们诚邀打字速度快捷、准确率高的您加入我们的兼职团队，享受每小时高达50元的丰厚报酬。配音新手圈是鼎音传媒公司开发的在线兼职公众号,职位包括:写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、每日更新。-即时结算：采用一单一结的灵活薪酬模式，完成每笔订单即可立即获得报酬，无需等待，资金回笼迅速。-零门槛加入：全程无需缴纳任何形式的费用，
吴猛强：两个永远保持积极情绪价值的小妖（新《西游记》80）吴猛强专栏
（1）大骗子孙悟空！！我们是精细鬼，伶俐虫，我们来找你，算账了！！！.（2）你用一个假宝贝，跟我们换了两个真宝贝！！你拿一个骗人的，既可以装天又可以装人的宝贝，跟我们换了两个虽然不可以装天，但真的可以装人的宝贝！！！.（3）你让我们以为自己占了便宜，使我们非常开心，你还在那个假宝贝里面，装了一个假的孙悟空，让我们把那个假宝贝搬回去向我们的大王邀功！！！.（4）我们真的谢谢你啊！！！你这个大骗子，让
妈妈，是不是每个人紧张的时候表现都不一样啊？虚度时光读吧
大宝每天晚上睡前，我们都要聊一会的。昨天晚上我们聊了一个话题，我想写出来了和大家分享。大宝问我：“妈妈，是不是每个人紧张的时候表现都不一样呢。比如有的同学紧张，会小声的唱歌，有的会低着头。我紧张的时候就突然颤抖一下，然后会很害怕。”我一听，心里也紧张起来，但凡一个小孩子提这样的问题，一定是她经历了什么事情，而到今天这件不好的事情还在影响着她的心情。我心里立马心疼起来，虽然很担心她发生了什么事情，又
雷锋精神凝聚力量民族复兴绽放光芒机械迷城
在毛泽东等老一辈革命家为雷锋同志题词60周年之际，习近平总书记对深入开展学雷锋活动作出重要指示强调：“新征程上，要深刻把握雷锋精神的时代内涵，更好发挥党员、干部模范带头作用，加强志愿服务保障和支持，不断发展壮大学雷锋志愿服务队伍，让学雷锋在人民群众特别是青少年中蔚然成风，让学雷锋活动融入日常、化作经常，让雷锋精神在新时代绽放更加璀璨的光芒，为全面建设社会主义现代化国家、全面推进中华民族伟大复兴凝聚
中原焦点团队网络25期吕文娟坚持分享第320天中期第187天第7期约练挑战第2周第1次约练文2020
本周我进行了第1次约练。我是作为来访者的这个角色。以前也做过，一直是自我成长这一块。本次约练收获如下：前一段时间一直被一些人的话困扰着，给我造成的很大的影响。今天也就这个话题去约练。我发现在某些关系中我会退化到小女孩的角色里。是这种行为影响到我吗？可这一次我没有这种心理呀？我感觉我希望别人看到我做到的，看到我的辛苦，能理解支持我。可惜并未被别人看到这个可能是痛苦的原因。
傅宵寒桑旎《前妻攻略：傅总，你出局了！》无弹窗全文免费阅读_前妻攻略：傅总，你出局了！每日文馆
小说：《前妻攻略：傅总，你出局了！》主角：傅宵寒桑旎简介：傅宵寒的记忆中，桑旎一直都是一个性格沉闷，古板无趣的人。直到离婚后，他才发现他的这位前妻温软可人，娉婷万种。但等他忍不住再次接近她的时候，桑旎却浅笑嫣嫣的告诉他，“傅总，你已经出局了。”房间内的温存在两个小时后才算真的结束。淋浴间传来了水声，桑旎在缓了几分钟后，终于从床上爬了起来，颤着双腿去捡地上的衣服。她现在大脑还有些空，睡衣的扣子扣了好
十日师胡言简语
见你前，我紧张得像个baby反复练习，我们见面的话语未到机场接你，表示深深地歉意敲门后的气息，变得凝重无比周围瞬间安静得没有丝毫声音心跳加速，深吸呼气可曾想当你开门后的第一句慈祥的笑容，热情的language一切的紧张都消逝而去十日为吾师所获仅我知此后虽分区时良习却当树植图片发自App
暴富渔翁怎么玩安全吗？暴富渔翁极速版怎么赚钱是真的吗？鬼才永安
暴富渔翁怎么玩安全吗？暴富渔翁极速版怎么赚钱？暴富渔翁看视频挣钱是真的吗？暴富渔翁是一款近年来在许多手机用户中备受欢迎的休闲游戏，同时也成为了人们讨论的热门话题。游戏名称虽然显得轻松愉快，但不少玩家对于其安全性以及如何盈利仍有疑问。在这篇文章中，我们将详细探讨暴富渔翁的玩法、安全性、极速版的赚钱方式以及看视频赚钱的真实性等多个方面。一、暴富渔翁怎么玩？是否安全？暴富渔翁的核心玩法是模拟钓鱼，玩家通
✨ Apache Airflow：当你的工作流不再“996”，全靠这个调度大师！
文章目录️先聊聊痛点：工作流调度为啥让人头大？Airflow是谁？你的工作流“总指挥”！Airflow的核心“大脑”：理解几个关键概念Airflow的魔力大招：为什么开发者爱不释手？Airflow是万能药吗？也聊聊它的“小脾气”️哪些场景最适合召唤Airflow？如何开始你的第一次Airflow“飞行”？我的个人碎碎念（真情实感时间）总结：让Airflow做你的“流程指挥官”！还在为凌晨三点被报警
Java界大地震！IBM联手红帽打造最强生态极道Jdon javascript reactjs
2025年刚开年，红帽就搞了个大新闻——把自家Java天团全部打包塞给IBM当"嫁妆"！这就像你们班学霸突然转学去隔壁，但其实是两家早就"领证"了（2019年IBM花340亿美金天价娶了红帽）。现在IBM家里蹲着两个JDK/JVM战队，活像买了双份皮肤的游戏账号。不过官方拍胸脯保证：绝对不搞改名换姓那套，就是集中火力搞大事！WildFly和Quarkus这些技术就像不同口味的奶茶，以后能共用珍珠椰
重磅！LM Studio AI编程全面免费
从今天起，LMStudio在家和工作中均可免费使用。查看更新后的条款了解详情。我们的隐私政策保持不变，您可以在此处阅读。在家免费使用，现在也可在工作场所使用LMStudio一直以来都免费供个人使用。这源于我们秉持的根本信念：人工智能应该让人们在自己的机器上轻松访问，无需依赖任何外部资源，并且完全保护隐私。此前，LMStudio应用条款规定，公司或组织若要使用LMStudio，必须联系我们并获得单独
尽心尽性寻求神,神就赐下四境平安历代志下15：8-19 对话是一份事业
默想问题：1、亚撒听见先知亚撒利雅的预言，怎么做？（便除去偶像，重修圣殿的祭坛。）•8就壮起胆来，在犹大、便雅悯全地，并以法莲山地所夺的各城，将可憎之物尽都除掉；又在耶和华殿的廊前，重新修筑耶和华的坛；9又招聚犹大、便雅悯的众人，并他们中间寄居的以法莲人、玛拿西人、西缅人。有许多以色列人归降亚撒，因见耶和华他的神与他同在。2、犹大百姓和许多归顺亚撒的北国以色列人此时怎么做？（均聚集在耶路撒冷，且坚
农民工返乡普法教育不容忽视豫南农民工
农民工返乡普法教育不容忽视吴贤德/文随着传统节日农历春节假期临近，每年春节前后，不但大批农民工集中返乡的时间，也是在外经商和工作人员集中返乡的时间，与家人和亲朋好友团聚的时候，笔者认为家乡政府和执法部门，应该趁这个时间深入到乡村农民工中间去，认真做一做返乡农民工的普法教育工作。据笔者多年调查了解，每年农历春节期间，农民工放假集中返乡过春节的高峰期，也是聚众赌博高发期，一些农民工在外打工为了挣钱，常
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

一篇关于java爬虫实现的技术分享

你可能感兴趣的:(一篇关于java爬虫实现的技术分享)