罗星星的博客

基于Java的网页爬虫实践

文章目录

爬虫概念
愿景
爬虫框架选型

分布式爬虫
单机爬虫
非Java单机爬虫

爬虫和反爬虫
网页节点的解析方式
Jsoup、WebCollector、Htmlunit解析实例
WebMagic的介绍及使用
WebMagic+Selenium自动化登录爬虫实践
结论和参考

本文项目san-spider源码地址
https://github.com/lufei222/san-spider.git

爬虫概念

1、爬虫基本概念

爬虫的概念：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。这是百度百科对爬虫的定义，其实，说简单点，爬虫就是利用写好的程序自动的提取网页的信息。

2、爬虫的分类
通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。
聚焦爬虫：聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值。
增量式爬虫：增量式是用来检测网站数据更新的情况，且可以将网站更新的数据进行爬取。

3、爬虫的价值
抓取互联网上的数据，为我所用，有了大量的数据，就如同有了一个数据银行一样，下一步做的就是如何将这些爬取的数据产品化，商业化。

愿景

开源的爬虫框架已经很多了，有各种语言（比如：python、java）实现的，有单机的，还有大型分布式的，多达上百种，详情可见：
开源中国网络爬虫框架列表
33款可用来抓数据的开源爬虫软件工具
爬虫项目经验小结
github上有哪些优秀的java爬虫项目

我们的要求也不高：

社区丰富，用户量多，多人用的项目少踩坑。
文档要全，上手快。
安装和集成使用简单。
代码语法简洁
爬虫的主要功能要有，比如：支持请求头部设置，支持代理，支持多线程，url自动去重复，html解析方便（至少要能支持css选择器，xpath选择器，正则表达式等常见的解析方式）

选定好一款爬虫开源框架后，就要考虑自己的业务特点，设计自己的项目架构了，大多数用爬虫的人，基本需求其实是类似的。

最终一般的爬虫项目都是这样的操作：

将目标网站的页面尽可能快速的扒下来
然后解析出有用的内容
落地存储到db、缓存

稍微成熟爬虫开源框架基本上都已经实现了第一步。
根据实际业务规则解析完了以后，如何落地、保持更新网站变更策略，都需要我们去考虑。

爬虫框架选型

可以参考开源网络爬虫框架应该怎么选？
考虑选型的时候主要有以下参考项：

支持多线程？
爬虫能用代理么？
爬虫会爬取重复数据么？
爬虫能爬取ajax生成的信息么？
爬虫怎么抽取网页信息
爬虫怎么保存网页的信息
爬虫速度如何？
报错容易定位修改吗？

上面说的爬虫，基本可以分3类：

分布式爬虫：Nutch…
JAVA单机爬虫：Crawler4j、WebMagic、WebCollector、Gecco、Jsoup、Htmlunit
非JAVA单机爬虫：Scrapy…

分布式爬虫

Nucth：
优点：分布式抓取，存储和索引，有hadoop支持，第三方插件丰富
缺点：使用上手难，用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。

单机爬虫

对于单机爬虫框架，日常开发中占用时间多的地方就是网页内容解析，所以首先要介绍下优秀的HTML网页解析器：Jsoup和Htmlunit和神器Selenium

Jousp: 一款非常流行的Java的HTML解析器，主要用来对HTML解析。也可以进行Http请求网页爬取源码。
Htmlunit：它不仅仅是一个HTML解析器。这是一个真正的“无GUI浏览器”和HTML单元测试工具。
Selenium：Selenium是基于Web应用的验收测试工具集合，直接运行在浏览器中，通过一系列命令来模拟用户操作，Selenium可以将这些命令转化成实际的HTTP请求在浏览器中运行，获取到网页信息和Cookie等信息

上面列举的单机爬虫中，Gecco基于注解方式实现，官方demo无法运行，体验太差，首先排除不考虑。

对于其他几个，功能都很丰富，且都在持续更新中。

name	Github Star	文档丰富度	使用项目数	网络博文丰富度(10)
Crawler4j	3.9k	5	199	6
WebMagic	9.1k	非常齐全	586	7.5
WebCollector	2.6k	7	72	7.5

从以上几个指标来看，都很优秀
基于我实际项目运行对比情，WebMagic文档丰富上手快，demo项目多，所以当前日常使用WebMagic。

非Java单机爬虫

主要说 Python 爬虫，以Scrapy为首，对比Java主要优势在于

Python的语法简洁，入门简单，节点解析简洁高效，比如：Python 可以用 30 行代码，完成 Java 50 行代码干的任务。Python 写代码的确快。
爬虫用户量大、社区活跃度大。
Github基于Python实践的项目基数巨大，对于大多数网站，基本有参考，拿来修改即用。

综上对比：
分布式爬虫Nucth有点大材小用，开发效率也不高，暂时不打算考虑。
在日常Java项目中，我会首选WebMagic，而当需要花费大量时间精力去做爬虫工作的时候，我会选择Python的Scrapy。

爬虫和反爬虫

如何应对网站反爬虫策略？如何高效地爬大量数据?
爬虫突破封禁的6种常见方法
常见反爬虫机制与应对方法
爬虫与反爬虫的博弈

爬虫和反爬虫都是一直在进步的，下面列举一些常见的爬与反爬运用涉及的相关知识点

设置User-Agent
设置Cookie
访问频率限制
代理IP或者分布式爬虫：
构造合理的HTTP请求头

网页节点的解析方式

CSS选择器 + Xpath + 正则表达式整理
xpath表达式

Jsoup、WebCollector、Htmlunit解析实例

Jsoup源码
WebCollector源码
接下来大篇幅主要介绍Webmagic，因为先简要介绍下其他解析器。
使HttpClient、Jsoup、Htmlunit爬取网页实例代码源码：
LagouMulSpider.java

package demo;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.util.List;
import java.util.Random;

/**
 * lagou多种不同方式实现的爬虫
 * 测试htmlunit、jsoup、httpclient直接爬取
 */
public class LagouMulSpider {

    static Random random = new Random();
    private static String LAGOU_URL = "https://www.lagou.com/zhaopin/ceo/1/?filterOption=3&sid=f1937baf1115438c9ea9aee62836a985";


    public static void main(String[] args) throws IOException, InterruptedException {
        //直接httpclient爬取lagou网页，会提示存在恶意访问行为被拦截，
        testHttpClient();
        testJsoup();
        testHtmlunitLagou();
        testHtmlunitBaidu();
    }
    private static void testJsoup() throws IOException, InterruptedException {
        System.out.println("************************testJsoup************************");
        for(int i=0;i<2;i++) {
            Document doc = Jsoup.connect(LAGOU_URL).get();
            Elements newsHeadlines = doc.select(".pager_container");
            System.out.println(newsHeadlines);
            Thread.sleep(200);
        }
    }


    private static void testHttpClient() {
        try {
            System.out.println("************************testHttpClient************************");
            CloseableHttpClient httpClient = HttpClients.createDefault();
            HttpGet httpGet = new HttpGet(LAGOU_URL);

            CloseableHttpResponse response = httpClient.execute(httpGet);
            HttpEntity entity = response.getEntity();
            String content = EntityUtils.toString(entity, "utf-8");
            response.close();
            Jsoup.parse(content);
            Document doc = Jsoup.parse(content);
            Elements elements = doc.getElementsByTag("title");
            System.out.println(elements);
        }catch (Exception e){
            System.out.println(e.getCause());
        }
    }

    private static BrowserVersion getRandomBrowserVersion(){
        int i = random.nextInt(5);
        BrowserVersion browserVersion = BrowserVersion.getDefault();
        switch (i){
            case 1:  browserVersion = BrowserVersion.CHROME  ;break;
            case 2:  browserVersion = BrowserVersion.FIREFOX  ;break;
            case 3:  browserVersion = BrowserVersion.FIREFOX_68  ;break;
            case 4:  browserVersion = BrowserVersion.BEST_SUPPORTED  ;break;
            case 5:  browserVersion = BrowserVersion.INTERNET_EXPLORER  ;break;
            default: ;
        }
        return browserVersion;
    }

    /**
     * 测试循环获取lagou的页面是否也是五次限制，还是真的能像浏览器一样正常访问.发现其实是一样限流了，超过32秒才能继续访问
     * @throws IOException
     * @throws InterruptedException
     */
    private static void testHtmlunitLagou() throws IOException, InterruptedException {
        System.out.println("************************testHtmlunitLagou************************");
        for(int i=0;i<2;i++){
            //创建一个webclient
            WebClient webClient = new WebClient(getRandomBrowserVersion());
            //htmlunit 对css和javascript的支持不好，所以请关闭之
            webClient.getOptions().setJavaScriptEnabled(false);
            webClient.getOptions().setCssEnabled(false);
            //获取页面
            HtmlPage page = webClient.getPage(LAGOU_URL);
            List<Object> byXPath = page.getByXPath("//div[@class='pager_container']//text()");
            System.out.println(byXPath);
            //关闭webclient
            webClient.close();
        }
    }
    private static void testHtmlunitBaidu() throws IOException {
        System.out.println("************************testHtmlunitBaidu************************");
        String str;
        //创建一个webclient
        WebClient webClient = new WebClient();
        //htmlunit 对css和javascript的支持不好，所以请关闭之
        webClient.getOptions().setJavaScriptEnabled(false);
        webClient.getOptions().setCssEnabled(false);
        //获取页面
        HtmlPage page = webClient.getPage("http://www.baidu.com/");
        //获取页面的TITLE
        str = page.getTitleText();
        System.out.println(str);
        webClient.close();
    }
}

WebCollector解析实例

WebMagic的介绍及使用

Java爬虫框架WebMagic的介绍及使用(定时任务、代理)
官方文档
Java爬虫框架WebMagic入门

1、WebMagic框架简介

PageProcessor、Scheduler、Downloader和Pipeline，对应爬虫生命周期中的处理、管理、下载和持久化等功能，都是Spider中的属性，爬虫框架通过Spider启动和管理。

WebMagic总体架构图如下：

2、四大组件

PageProcessor 负责解析页面，抽取有用信息，以及发现新的链接。需要自己定义。
Scheduler 负责管理待抓取的URL，以及一些去重的工作。一般无需自己定制Scheduler。
Pipeline 负责抽取结果的处理，包括计算、持久化到文件、数据库等。
Downloader 负责从互联网上下载页面，以便后续处理。一般无需自己实现。

3、用于数据流转的对象
Request 是对URL地址的一层封装，一个Request对应一个URL地址。
Page 代表了从Downloader下载到的一个页面——可能是HTML，也可能是JSON或者其他文本格式的内容。
ResultItems 相当于一个Map，它保存PageProcessor处理的结果，供Pipeline使用。

WebMagic+Selenium自动化登录爬虫实践

WebMagic其他 demo
WebMagic实例 GiteeAutoLoginSpider.java

视频展示效果如下
https://share.weiyun.com/liXqrw51
https://weibo.com/tv/v/J7HTMa0Zu?fid=1034:4518366212194347

package demo;
 
import java.util.HashSet;
import java.util.List;
import java.util.Set;
import java.util.stream.Collectors;

import org.openqa.selenium.By;
import org.openqa.selenium.Cookie;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
 
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;


/**
 * gitee自动化登录获取私有项目
 */
public class GiteeAutoLoginSpider implements PageProcessor {

	private static String GITEE_NAME = System.getenv("GITEE_NAME");
	private static String GITEE_USERNAME = System.getenv("GITEE_USERNAME");
	private static String GITEE_PASSWORD = System.getenv("GITEE_PASSWORD");
	private static String GITEE_URL = "https://gitee.com/login";


	private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(10000);

	// 用来存储cookie信息
	private Set<Cookie> cookies = new HashSet<>();

	@Override
	public Site getSite() {
		// 将获取到的cookie信息添加到webmagic中
		for (Cookie cookie : cookies) {
			site.addCookie(cookie.getName(), cookie.getValue());
		}
		return site;
	}

	/**
	 * 解析网页节点具体业务逻辑
	 * @param page
	 */
	@Override
	public void process(Page page) {

		System.out.println("开始解析");
		String  tabName = page.getHtml().xpath("//a[@class='item f-bold']//allText()").get();
		System.out.println(tabName);
		List<String> projects = page.getHtml().xpath("//span[@class='project-title']//allText()").all();
		List<String> privateProject = projects.stream().filter(x -> x.contains("san")).distinct().collect(Collectors.toList());
		System.out.println(privateProject);
		page.putField("gitee project ", privateProject);

	}
	
    /**
	 * 登录获取cookie的操作
	 * 
     * 使用selenium+chromedriver驱动完成自动登录gitee获取cookie的操作
     * 对于大多数网站可以直接获得cookie
     * 对于大型的验证比较多的网站，会比较麻烦，建议可以百度 或者 github参照其他项目的selenium自动登录实现
     * 在自动登录实现不可行的时候，更快的方式是直接浏览器登录手动复制cookie，以便后续登录之后的操作继续正常进行
     */
	public void login() {
		// 登陆
		System.setProperty("webdriver.chrome.driver", "D:/chromedriver/chromedriver.exe"); // 注册驱动
		WebDriver driver = new ChromeDriver();
		driver.get(GITEE_URL);// 打开网址
		// 防止页面未能及时加载出来而设置一段时间延迟
		try {
			Thread.sleep(1000);
			// 设置用户名密码
			driver.findElement(By.id("user_login")).sendKeys(GITEE_USERNAME); // 用户名
			driver.findElement(By.id("user_password")).sendKeys(GITEE_PASSWORD); // 密码
			// 模拟点击
			driver.findElement(By.name("commit")).click();
			// 防止页面未能及时加载出来而设置一段时间延迟
			Thread.sleep(1000);
		} catch (InterruptedException e) {
			e.printStackTrace();
		}
		// 获取cookie信息
		cookies = driver.manage().getCookies();
		System.out.println("cookie " + cookies);

		driver.close();

	}
 
	public static void main(String[] args) {
 
		String url = "https://gitee.com/"+GITEE_NAME+"/dashboard/projects?scope=private&&sort="; // 地址
		GiteeAutoLoginSpider dome = new GiteeAutoLoginSpider();
        // 登陆
		dome.login();
		Spider.create(dome)
				.addUrl(url)
				//输出内容到控制台
				.addPipeline(new ConsolePipeline())
				//输出内容到文件
				.addPipeline(new FilePipeline("D:\\webmagic\\gitee"))
				.run();

	}
}

结论和参考

经过项目的经验时间，其实上面列举的功能都很强大，如果只是Java项目当中由于一些需求需要使用，那么其实Jsoup或者Htmlunit足矣，要有代理、多线程、去重、头部设置、自动登录等，则根据自己需要引入WebMagic或Selenium等，参照着Github上面的丰富的爬虫项目肯定能完成自己的需求。
如果你需要投入大量时间精力在爬虫上面的话，建议直接用Python的Scrapy，已有开源项目足矣让你在爬虫工作上游刃有余。

本文项目san-spider源码地址
https://github.com/lufei222/san-spider.git

参考

口罩地址Python
htmlunit 爬虫案例
实例二 htmlunit
解决htmlunit的webclient对象在多线程环境下的共享问题
高级爬虫进阶：HtmlUnit+多线线程+消息队列快速抓取大量信息数据
Java爬虫，爬取京东、天猫、淘宝、阿里巴巴、苏宁、国美、考拉电商数据
基于webmagic的爬虫项目经验小结
CSS选择器 + Xpath + 正则表达式整理
在开源中国爬虫分类的软件
雪球网的爬虫
今日头条相关的httpunit
Nutch、heritrix、crawler4j优缺点
关于webmagic的说明文档
基于Webmagic的Java爬虫（四）爬取动态列表页内容
基于webmagic的理财产品分页
java爬虫Gecco工具抓取新闻实例
爬虫京东
java爬虫事例
github上有哪些优秀的java爬虫项目
https://www.zhihu.com/question/31427895
https://www.52pojie.cn/thread-1068214-1-1.html
使用WebMagic多线程爬取图+httpClient多线程下载图片
拉勾网爬取(WebMagic+Selenium+ChromeDriver)
https://blog.csdn.net/weixin_43719622/article/details/102784141
https://github.com/Yangtze-Innovation/Search-Job-Platfom/tree/CourageHe/2-WebMagic/4-WebMagicSelenimu
第一次用webmagic写爬虫
webmagic简书
爬取动态页面模拟登录
WebMagic 实现爬虫入门教程
爬取页面需要登陆才可爬取，这种怎么解决
不能登录的常见问题1
不能登录的常见问题2
webmagic框架图
WebMagic实现分布式抓取以及断点抓取,爬虫主要运行时间消耗是请求网页时的io阻塞，所以开启多线程，让不同请求的等待同时进行，可以大大提高爬虫运行效率
多线程爬虫图
Gather Platform 聚集收集平台
基于Crawler4j + jsoup实现虫
selenium介绍
crawler4j简介
htmlunit HtmlUnit的使用
webcollector简介
Java开源爬虫框架WebCollector爬取CSDN博客
爬取微信公众号
Java开源爬虫框架WebCollector爬取搜索引擎
爬虫与反爬虫

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

基于Java的网页爬虫实践

文章目录

爬虫概念

愿景

爬虫框架选型

分布式爬虫

单机爬虫

非Java单机爬虫

爬虫和反爬虫

网页节点的解析方式

Jsoup、WebCollector、Htmlunit解析实例

WebMagic的介绍及使用

WebMagic+Selenium自动化登录爬虫实践

结论和参考

你可能感兴趣的:(java/scala,爬虫)