黑暗料理界的扛把子

Webmagic+selenium+chromedriver+jdbc垂直抓取数据。

新手小白入手selenium+chromedriver爬虫，爬取各种网站之后觉得只要能看到的都能抓到是真方便，就是效率低了点。所以开始加点东西提高一下爬虫效率。对我来说最直接的方法就是单线程变多线程~~~

1、webmagic爬取数据规则

框架	Selenium	webmagic
抓取规则	针对单个或者一类页面制定爬虫规则	针对多类页面制定多种爬虫规则垂直爬取
线程	单线程	多线程
解析json	需要其他jar辅助	内置json解析工具
页面抽取工具	内置页面抽取规则	内置页面抽取规则
断电重续	不存在	存在
IP代理池	需要自己写	0.4版本之后开始出现内置代理池（性能不稳定），0.6版本之后能够自己编写IP代理池

以往的爬虫当中需要针对某一个或者一类页面单独制定爬虫规则，webmagic也是如此，不同的是webmagic是垂直爬取。

什么是垂直爬取呢？来看个图：

这是树形图与webmagic的抓取逻辑类似，我们可以把“语法树根节点”理解为我们抓取的起始页面，在这个页面我们除了可以抓取需要的数据，还能获得子页面的链接（if语句、调用方法），我们将子页面的链接加入待抓取队列，那么我们接下来就会对子页面当中的信息进行抓取，依次类推我们可以获得不同深度（主页面当中的子页面深度为1，以此类推）页面当中的数据，同时能够不断的在抓取队列当中添加信息。

我们在抓取队列当中不断添加需要抓取的页面链接，但是各个深度的页面抓取规则和需要的数据也是不一样的，按照以往我们需要写很多的程序，webmagic通过Page对象解决这一个问题，我们在Page对象当中对抓取页面进行分类，然后再匹配对应的抓取规则。

2、webmagic框架搭建

2.1 mavan搭建


    us.codecraft
    webmagic-core
    0.7.3


    us.codecraft
    webmagic-extension
    0.7.3

2.2 jar包搭建

需要的jar太多了去我的百度网盘下载吧（提取码：p5z6）

3、创建爬虫项目

做爬虫总是要寻找示例的，webmagic适合爬取含有至少两层深度的数据源，或者是含有众多子页面的数据源。

最近在整理数据源的盘口数据那么我就拿其中一个作为爬取示例。

首先分享一下目录结构（web工程）

别的不多说了直接上代码

package cyt.selenium;


import java.sql.ResultSet;
import java.util.ArrayList;
import java.util.List;
import java.util.UUID;

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;

import pankou.dao.ALLcharDao;
import pankou.pojo.AllChar;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.processor.PageProcessor;

public class seleniumXxdj implements PageProcessor  {

	/**
	 * vpgame盘口数据抓取小程序


	 * @date 2018-8-20
	 * @website http://www.vpgame.com/###
	 * @author jingsheng
	 * @game lol
	 */
	
	// 抓取网站的相关配置，包括编码、抓取间隔、重试次数等
    private Site site = Site.me().setRetryTimes(10).setSleepTime(1000).addHeader("Accept-Encoding", "/");
    private static int count =0;
	
	
	public void process(Page page) {
	
		//加载webdriver驱动
		System.setProperty("webdriver.chrome.driver",  "D:/cyt_down/selenium/chromedriver.exe");
		WebDriver driver = new ChromeDriver();
		
		String nowUrlStr = page.getUrl().toString() ;
		
		if(nowUrlStr.indexOf("game")!=-1){
			driver.get(nowUrlStr);
			try {
				Thread.sleep(3000);
			} catch (InterruptedException e1) {
				// TODO Auto-generated catch block
				e1.printStackTrace();
			}
			
			int matchNumber = driver.findElements(By.className("match")).size();
			System.out.println("目前一共有 " + matchNumber + "条数据。准备进行筛选~~~~");
			for(int a=0;a2){
						System.out.println("比赛正在进行中");
						trueNum = 0 ;
					}
					
					try {
						gameStatetest = matchList.findElement(By.xpath("./div["+(1+trueNum)+"]")).getText();
						System.out.println("gameStatetest" + gameStatetest);
					} catch (Exception e) {
						System.err.println("gameStatetest 不存在");
						continue;
					}
					
					try {
						url = matchList.findElement(By.xpath("./div["+(6+trueNum)+"]/ul/li[2]/a")).getAttribute("href");
						System.out.println("url" + url);
					} catch (Exception e) {
						System.err.println("url 不存在");
						e.printStackTrace();
						continue;
					}
					
					try {
						matchCLass = matchList.findElement(By.xpath("./div["+(6+trueNum)+"]/ul/li[2]/a")).getAttribute("class");
						System.out.println("matchCLass  " + matchCLass);
					} catch (Exception e) {
						System.out.println("matchCLass 不存在");
					}
					
					try {
						String gameStateStr_test = matchList.findElement(By.xpath("./div["+(7+trueNum)+"]")).getText();
						gameStateStr = judgmentGameStateStr(gameStateStr_test);
						itemStaus =  judgmentItemStaus(gameStateStr_test);
						System.out.println("gameStateStr  " + gameStateStr);
					} catch (Exception e) {
						System.out.println("gameStateStr 不存在");
					}
					
					try {
						LeagueName = matchList.findElement(By.xpath("./div["+(5+trueNum)+"]/div")).getText().replaceAll("\\s*", "");
						System.out.println("LeagueName  " + LeagueName);
					} catch (Exception e) {
						System.out.println("LeagueName 不存在");
					}
					
					
					try {
						VisitPic = matchList.findElement(By.xpath("./div["+(4+trueNum)+"]/div/span[1]/img")).getAttribute("src");
						System.out.println("VisitPic  " + VisitPic);
					} catch (Exception e) {
						System.out.println("VisitPic 不存在");
					}
					
					try {
						VisitName = matchList.findElement(By.xpath("./div["+(4+trueNum)+"]/div/span[2]")).getText();
						System.out.println("VisitName  " + VisitName);
					} catch (Exception e) {
						System.out.println("VisitName 不存在");
					}
					
					try {
						HomeScore = matchList.findElement(By.xpath("./div["+(2+trueNum)+"]/div[2]")).getText();
						System.out.println("HomeScore  " + HomeScore);
					} catch (Exception e) {
						System.out.println("HomeScore 不存在");
					}
					
					try {
						VisitScore = matchList.findElement(By.xpath("./div["+(4+trueNum)+"]/span")).getText();
						System.out.println("VisitScore  " + VisitScore);
					} catch (Exception e) {
						System.out.println("VisitScore 不存在");
					}
					
					try {
						HomeName = matchList.findElement(By.xpath("./div["+(2+trueNum)+"]/div[1]/span[1]")).getText();
						System.out.println("HomeName  " + HomeName);
					} catch (Exception e) {
						System.out.println("HomeName 不存在");
					}
					
		
				

					count = count +1 ;
				
				} catch (Exception e) {
					e.printStackTrace();
				}
			
			}
		}else if(nowUrlStr.indexOf("match")!=-1) {
			//抓取详情页信息
			driver.get(nowUrlStr);
			
			String startTime = ""; String fullScore= "";
			boolean next = false;
			//1、判断是否存在盘口数据
			try {
				String pankouStr = driver.findElement(By.className("matchRight")).findElement(By.xpath("./div[1]/p")).getText();
				next = true ;
			} catch (Exception e) {
				System.err.println("不存在盘口数据");
			}
			
			//2、遍历盘口数据，进行存储
			if(next==true){
				try {
					String test = driver.findElement(By.xpath("/html/body/div[1]/div[2]/div/div[1]/div[1]/div[3]/p")).getText();
					startTime = judgmentStartTime(test);
					
					fullScore = driver.findElement(By.xpath("/html/body/div[1]/div[2]/div/div[1]/div[1]/div[3]/div[1]/span")).getText();
					
					WebElement matchRight = driver.findElement(By.className("matchRight"));
					List list = driver.findElement(By.className("matchRight"))
						   	  .findElement(By.xpath("./div[1]"))
							  .findElements(By.tagName("dl"));
					System.out.println("目前一共拥有 " + list.size() +"条数据");
					for(int a=0;a");
								new ALLcharDao().updateXx(allChar);
								System.out.println("    更新成功");
							}else{
								new ALLcharDao().add(allChar);
								System.out.println("盘口数据改变,更新");
							}
							
						}
						
						//把对象输出到控制台
						System.out.println(allChar);

						count = count +1 ;
						
					}
				
				} catch (Exception e) {
					System.err.println("盘口数据出错");
					e.printStackTrace();
				}
			}else{
				String test = driver.findElement(By.xpath("/html/body/div[1]/div[2]/div/div[1]/div[1]/div[3]/p")).getText();
				startTime = judgmentStartTime(test);
				
				fullScore = driver.findElement(By.xpath("/html/body/div[1]/div[2]/div/div[1]/div[1]/div[3]/div[1]/span")).getText();
				
				
				

				count = count +1 ;
			}
			
		}
		
		driver.quit();
    }
	
	public Site getSite() {
			return this.site;
	}

	@SuppressWarnings("deprecation")
	public static  void main(String[] args) {
		 long startTime, endTime;
        System.out.println("开始爬取...");
        startTime = System.currentTimeMillis();
        System.out.println(startTime);
        
        List startUrls =new  ArrayList();
        startUrls.add("https://www.xxdianjing.com/game11.html");
        startUrls.add("https://www.xxdianjing.com/game24.html");
        startUrls.add("https://www.xxdianjing.com/game65.html");
        startUrls.add("https://www.xxdianjing.com/game254.html");
        startUrls.add("https://www.xxdianjing.com/game205.html");
        
        Spider.create(new seleniumXxdj())
              .startUrls(startUrls)
              .thread(5)
              .addPipeline(new ConsolePipeline())
              .run();
        endTime = System.currentTimeMillis();
        
        System.out.println("爬取结束，耗时约" + ((endTime - startTime) / 1000) + "秒，抓取了"+count+"条记录");

	}
	

	public static String judgmentCnName (String str){
		String newStr = "" ;
		if(str.indexOf("game11.html")!=-1){
			return newStr= "英雄联盟";
		}else if(str.indexOf("game24.html")!=-1){
			return newStr= "刀塔2";
		}else if(str.indexOf("game65.html")!=-1){
			return newStr= "守望先锋";
		}else if(str.indexOf("game254.html")!=-1){
			return newStr= "王者荣耀";
		}else if(str.indexOf("game205.html")!=-1){
			return newStr= "反恐精英";
		}else{
			return newStr ;
		}
	}
	
	public static String judgmentEnName (String str){
		String newStr = "" ;
		if(str.indexOf("game11.html")!=-1){
			return newStr= "League of Legends";
		}else if(str.indexOf("game24.html")!=-1){
			return newStr= "Dota2";
		}else if(str.indexOf("game65.html")!=-1){
			return newStr= "OW";
		}else if(str.indexOf("game254.html")!=-1){
			return newStr= "King of Glory";
		}else if(str.indexOf("game205.html")!=-1){
			return newStr= "CSGO";
		}else{
			return newStr ;
		}
	}
	
	public static String judgmentGameId (String str){
		String newStr = "" ;
		if(str.indexOf("game11.html")!=-1){
			return newStr= "002";
		}else if(str.indexOf("game24.html")!=-1){
			return newStr= "003";
		}else if(str.indexOf("game65.html")!=-1){
			return newStr= "006";
		}else if(str.indexOf("game254.html")!=-1){
			return newStr= "001";
		}else if(str.indexOf("game205.html")!=-1){
			return newStr= "004";
		}else{
			return newStr ;
		}
	}
	
	public static String judgmentGameState (String str){
		String newStr = "" ;
		if(str.indexOf("进行中")!=-1){
			return newStr= "1";
		}else{
			return newStr= "0" ;
		}
	}
	
	public static String judgmentGameStateStr (String str){
		String newStr = "" ;
		if(str.indexOf("距竞猜截止还有")!=-1) {
			return newStr= "比赛未开始" ;
		}else if(str.indexOf("暂无竞猜或竞猜未开始")!=-1) {
			return newStr= "比赛未开始" ;
		}else if(str.indexOf("竞猜截止时间已到")!=-1) {
			return newStr= "比赛进行中" ;
		}else {
			return newStr= "" ;
		}
	}
	
	public static String judgmentItemStaus (String str){
		String newStr = "" ;
		if(str.indexOf("进行中")!=-1){
			return newStr= "已结束";
		}else{
			return newStr= "竞猜中" ;
		}
	}
	
	public static String judgmentStartTime (String str){
		try {
			String newStr = str.split(" ")[0] +" " + str.split(" ")[1];
			return newStr ;
		} catch (Exception e) {
			return "" ;
		}
	}
	
}

4、程序分析

webmagic结合selenium确实似的爬虫效率大大提升，可是也让潜在问题爆发出来，似的一些东西成为必不可少的，就比如说IP代理池和网站反爬虫机制（极验验证、验证码、页面数据加密）。

webmagic从0.4.0版本开始，支持Http代理。因为场景的多样性，代理这部分的API一直处于不稳定状态，但是因为需求确实存在，所以webmagic会继续支持代理部分的完善。在0.6.0版本后，允许实现自己的代理池，通过扩展接口ProxyPool来实现。目前webmagic的代理池逻辑是：轮流使用代理池中的IP，如果某个IP失败超过20次则增加两小时的重用时间，具体实现可以参考SimpleProxyPool。

这里我给一下添加IP代理的方法，不过由衷感叹自己抓的代理池真心不好用

//添加单个IP
site.setHttpProxy(new HttpHost("101.101.101.101",8888))
    .setUsernamePasswordCredentials(new UsernamePasswordCredentials("username","password"))
//添加多个IP
List poolHosts = new ArrayList();
poolHosts.add(new String[]{"username","password","101.101.101.101","8888"});
poolHosts.add(new String[]{"username","password","102.102.102.102","8888"});
//httpProxyList输入是IP+PORT, isUseLastProxy是指重启时是否使用上一次的代理配置
site.setHttpProxyPool(poolHosts,false);

极验验证说简单也是简单，说难也是难。说一下我处理极验验证的方法。

极验验证一半来说是在页面当中存在20张Img，这20张Img按照一定的顺序能够拼接成页面当中显示的图片，不过这个图片在当中是缺少一块的，我们根据拼接成的图片找到当中颜色与其他地方不一样的一块，然后根据这个块的大小计算，我们需要移动页面当中小块需要移动的距离。

在实际当中往往我们需要考虑更多的东西，页面当中小块移动的距离，小块完成移动需要的时间，针对同一滑块我们往往为了掩饰机器，需要放慢速度，多设计几种滑块速度。

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
下一站深圳默琊
昨天已经买好3/15到深圳的机票了，原本上周还有点拖延症发作，不太积极，所以昨天就直接逼迫自己买机票，然后在订房，下周就是确认行业和把具体的面谈日程定下来。行业的选择上目前没有太大的偏好，上一份工作主要是风控和客服，客服部分也算是个小组长，有负责培训和一些案件SOP流程的制定等工作。总感觉客服这个职位的职涯发展只能是垂直的往更高的管理层走，对于横向发展似乎不容易，而鉴于做客服1年的感受，我不太喜欢
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

Webmagic+selenium+chromedriver+jdbc垂直抓取数据。

你可能感兴趣的:(java,爬虫,webmagic,selenium,垂直爬虫)