多加点辣也没关系

Java-网络爬虫(二)

文章目录

前言
一、WebMagic
二、使用步骤
- 1. 搭建 Maven 项目
- 2. 引入依赖
三、入门案例
四、核心对象&组件
- 1. 核心对象
- - Sipder
  - Request
  - Site
  - Page
  - ResultItems
  - Html（Selectable）
- 2. 四大组件
- - Downloader
  - PageProcessor
  - Scheduler
  - Pipeline

上篇：Java-网络爬虫(一)

前言

之前有介绍过传统实现爬虫的技术 HttpClient 和 Jsoup，并提供了一些案例，但是作为企业级的应用，还是远远不够的，竟然如此就需要一些更深入的技术 WebMagic。

一、WebMagic

官网：https://webmagic.io/

WebMagic 是一款基于 Java 的开源网络爬虫框架，底层是 HttpClient 和 Jsoup，它提供了简单、灵活、强大的爬取功能，可以用于抓取网页数据、图片、文件等。WebMagic 的设计参考了 Scapy ，但是实现方式更 Java 化一些。

该框架分为核心和扩展两个部分，核心部分是一个精简、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。

核心部分（webmagic core）：提供非常简单、灵活的 API，在基本不改变开发模式的情况下，编写一个爬虫
扩展部分（webmagic extension）：提供一些便捷的功能，例如注解模式编写爬虫等，同时内置了一些常用的组件，便于开发

优点：

多语言支持：提供了 Python 和 Scala 等语言的版本，能够适应不同开发者的需求
任务调度：能够与 Quartz 等任务调度框架结合使用，实现定时爬取数据的功能
多线程支持：能够利用多核 CPU 提高爬虫效率
功能强大：支持 Cookie、代理等功能，能够模拟登录、避免反爬等操作
数据存储：支持多种格式的数据存储，如 MySQL、Redis、Elasticsearch 等，方便后续数据处理
常处理：能够处理一些异常情况，如页面 404、解析错误等，提高爬虫的健壮性
易于学习和使用：WebMagic 的核心非常简单，但是覆盖了爬虫的整个流程，也是很好的学习爬虫开发的材料。它提供简单灵活的 API，只需少量代码即可实现一个爬虫
模块化和可扩展性：采用完全模块化的设计，功能覆盖整个爬虫的生命周期（链接提取、页面下载、内容抽取、持久化），支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie 等功能
支持爬取动态渲染的页面：支持爬取 js 动态渲染的页面
无框架依赖：无框架依赖，可以灵活地嵌入到项目中

架构介绍：

WebMagic 的结构分为 Downloader、PageProcessor、Scheduler、Pipeline 四大组件，这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。

Downloader：
- Downloader 负责从互联网上下载页面，以便后续处理，WebMagic 默认使用了 Apache HttpClient 作为下载工具
PageProcessor：
- PageProcessor 负责解析页面，抽取有用信息，以及发现新的链接。WebMagic 使用 Jsoup 作为 HTML 解析工具，并基于其开发了解析 XPath 的工具 Xsoup
Scheduler：
- Scheduler 负责管理待抓取的 URL，以及一些去重的工作。WebMagic 默认提供了 JDK 的内存队列来管理 URL，并用集合来进行去重。也支持使用 Redis 进行分布式管理
Pipeline：
- Pipeline 负责抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic 默认提供了 “输出到控制台” 和 “保存到文件” 两种结果处理方案

用于数据流转的对象：

Request：
- Request 是对 URL 地址的一层封装，一个 Request 对应一个 URL 地址，它是 PageProcessor 于 Downloader 交互的载体，也是 PageProcessor 控制 Downloader 的唯一方式。除了 URL 本身，它还包含一个 Key-Value 结构的字段 extra，可以在 extra 中保存一些特殊的属性，然后在其它地方读取，以完成不同的功能
Page：
- Page 代表了从 Downloader 下载到的一个页面 — 可能是 HTML，也可能是 JSON 或者其它文本格式的内容。Page 是 WebMagic 抽取过程的核心对象，它提供了一些方法可供抽取、结果保存等
ResultItems：
- ResultItems 相当于一个 Map，它保存 PageProcessor 处理的结果，供 Pipeline 使用，它的 API 与 Map 很类似，值得注意的是它有一个字段 skip，若设置为 true 则不应被 Pipeline 处理

而 Spider 则将这几个组件组织起来，让它们可以互相交互，流程化的执行，可以认为 Spider 是一个大的容器，它也是 WebMagic 逻辑的核心。

工作原理：

从架构图中可以得知：

① 一个 http请求（其实 http 请求之后也会转换为 Request）进入到 Downloader 之后会进行页面下载，输出 Page
② Page 经过 PageProcessor 之后开始解析页面，会有两种输出类型：Request 和 ResultItems，对应两种情况
- 情况一：输出的是 Request
  - ③ 根据解析的逻辑如果发现需要进一步爬取的 url 地址，则产生一些新的 Request 进入 Scheduler 等待进一步抓取
  - ④ Downloader 会从 Scheduler 拉取待处理的 Request
  - ⑤ 执行 ①
- 情况二：输出的是 ResultItems
  - ③ 需要抽取的数据会封装到 ResultItems 中，再流转至 Pipeline
  - ④ Pipeline 对抽取的结果进行处理

二、使用步骤

1. 搭建 Maven 项目

如果有一个 Maven 工程的项目，可跳过

打开 IDEA 工具，点击 File -> New -> Project... 创建一个项目

选择 Maven

设置项目保存地址，点击 Finish

创建完成

不过使用 WebMagic 一般会将爬取到的结果数据持久到数据中，所以这里建议是搭建 SpringBoot 或者 SpringCloud 项目，但是搭建这些项目不是本文的重点，如果想要搭建简单的 SpringBoot 项目可参见 SpringBoot - 快速搭建

2. 引入依赖

WebMagic 分为两个部分：核心和扩展，可在 Maven 仓库中查询这这两个依赖


<dependency>
    <groupId>us.codecraftgroupId>
    <artifactId>webmagic-coreartifactId>
    <version>0.10.0version>
dependency>
<dependency>
    <groupId>us.codecraftgroupId>
    <artifactId>webmagic-extensionartifactId>
    <version>0.10.0version>
dependency>

三、入门案例

还是使用 WebMagic 爬取一个网站为例作为入门，在上篇博客中我们爬取了 https://www.rgbku.com/chaxun.html（rgb颜色查询器）这个网站的表格信息，现在我们使用 WebMagic 获取底部链接的信息

html 源码：

查看 html 源码可知只需要获取到

为类 .zh ->

-> -> ，然后再拿到标签的 href 属性内容即可

代码编写：

import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;

import java.util.ArrayList;
import java.util.List;

public class TestProcessorDemo implements PageProcessor {

    @Override
    public void process(Page page) {

        // 通过 page 获取 Html 对象
        Html html = page.getHtml();

        // 通过 Html 可以获取到 Document
        Document document = html.getDocument();
        // 有了 Document 就能够通过 Jsoup 的一些操作进行解析，比如说获取  标签元素
        Elements aElements = document.select("div.zh > div > span > a");
        // 创建 List 集合用于存放  标签的超链接信息
        List<String> links = new ArrayList<>();
        for (Element aElement : aElements) {
            // 获取  标签中的链接
            String href = aElement.attr("href");
            // 添加到集合中
            links.add(href);
        }
        System.err.println("links = " + links);

        /*
         * 不过一般也不会用 Jsoup 的方式来解析 Html
         * WebMagic 有一些解析器可以较为方便的拿到这些元素，比如使用 css 解析器
         */
        List<String> href = html.css("div.zh > div > span > a", "href").all();
        // 在将结果封装到 ResultItems（默认设置下会打印在控制台上）
        page.putField("href", href);
    }

    @Override
    public Site getSite() {
        return PageProcessor.super.getSite();
    }

    public static void main(String[] args) {
        Spider.create(new TestProcessorDemo())
                // 设置起始的 URL
                .addUrl("https://www.rgbku.com/chaxun.html")
                // 在当前线程中执行爬虫
                //.run();
                // 在新线程中执行爬虫
                .start();
    }
}

运行结果如下：

可以看到是能够成功获取得到想要的数据。

如果查看过 WebMagic 的核心包中的源码，可以发现其实有几个现成的 demo 案例

四、核心对象&组件

在上述案例中有使用过 PageProcessor、Page、Site、ResultItems、Spider 等对象，以下内容我会结合源码对这些对象和组件的一些概要说明

1. 核心对象

Sipder

可以认为 Spider 是一个大的容器，它也是 WebMagic 逻辑的核心。它的作用是：将各个组件组织起来，使它们能够相互协作，形成一个完整的爬虫系统。它负责管理和调度各个组件的运行，以确保整个爬虫过程的顺利进行。

获取 Spider 对象的方法有两个，要么通过构造方法 new 出来，要么使用静态方法 create(PageProcessor pageProcessor) 创建出来：

public class Spider implements Runnable, Task {

	...
	
    public static Spider create(PageProcessor pageProcessor) {
        return new Spider(pageProcessor);
    }

    public Spider(PageProcessor pageProcessor) {
        this.newUrlCondition = this.newUrlLock.newCondition();
        this.pageCount = new AtomicLong(0L);
        this.emptySleepTime = 30000L;
        this.pageProcessor = pageProcessor;
        this.site = pageProcessor.getSite();
    }
    
	...

}

例如上述入门案例中就是使用 create 的方式

Spider spider = Spider.create(new TestProcessorDemo());

从源码上也可以看到 Spider 中包含了 webMaigc 的四大组件的影子

所以才说它是一个大的容器，同时 Spider 中有各个组件的配置以及线程相关的方法，是 webMagic 的核心

Request

Request 是对 URL 地址的一层封装，一个 Request 对象对应一个 URL 地址。

从源码上可以看到 Request 对象中包含了发送一个 http 请求的所有要素，包括 url 地址、请求类型、请求参数、cookie 和 header 等等，还包含一个 Key-Value 结构的字段 extra 。可以在 extra 中保存一些特殊的属性，然后在其他地方读取，以完成不同的功能。

之前说 http 在进入到下载组件 Download 是便会转化成 Request 对象，可以通过入门案例中的代码

spider.addUrl("https://www.rgbku.com/chaxun.html")

进入到 addUrl(String... urls) 方法中看到

public class Spider implements Runnable, Task {

	...
	
    public Spider addUrl(String... urls) {
        String[] var2 = urls;
        int var3 = urls.length;

        for(int var4 = 0; var4 < var3; ++var4) {
            String url = var2[var4];
            // 将 url 转化成 Request 对象，加载到调度器 Scheduler 中 
            this.addRequest(new Request(url));
        }

        this.signalNewUrl();
        return this;
    }
    
	...

}

Site

Site 对象用于配置站点本身的一些配置信息，例如编码、HTTP 头、超时时间、重试策略等、代理等。其中待解析的域名存放在 domain 这个属性中

通过设置 Site 对象，可以对爬虫的行为进行详细配置，以满足不同的需求。具体来说，Site 对象可以设置以下配置信息：

编码：用于指定站点的字符编码方式，以确保爬虫能够正确解析页面内容
HTTP头：用于设置请求头信息，以模拟浏览器行为，增加爬虫的隐蔽性
超时时间：用于设置爬虫请求的超时时间，以避免因网络延迟等原因导致请求等待过长时间
重试策略：用于设置爬虫在遇到请求失败时是否进行重试以及重试的次数和间隔等
代理：用于设置代理服务器地址和端口等信息，以便通过代理访问目标站点

Site 对象提供的配置方法如下：

方法	说明
setCharset(String charset)	设置字符编码方式，以确保爬虫能够正确解析页面内容
setUserAgent(String userAgent)	设置用户代理，用于标识发送请求的客户端应用或设备，更好的模拟游览器发送请求
Site setDomain(String domain)	设置域名，需要设置域名后，`addCookie()` 才会生效
setSleepTime(int sleepTime)	设置爬虫在抓取下一个页面之前等待的时间，以避免过于频繁的请求导致被目标站点封禁
setTimeOut(int timeOut)	设置爬虫请求的超时时间，以避免因网络延迟等原因导致请求等待过长时间
setRetrySleepTime(int retrySleepTime)	设置爬虫在遇到请求失败时的重试间隔时间
setRetryTimes(int retryTimes)	设置爬虫在遇到请求失败时的重试次数
addHeader(String key, String value)	添加请求头信息，以模拟浏览器行为，增加爬虫的隐蔽性
addCookie(String key, String value)	添加 `Cookie` 信息，以模拟浏览器会话信息，增加爬虫的隐蔽性

通过合理配置 Site 对象的参数，可以优化爬虫的性能，提高爬虫的效率和成功率，增加爬虫的隐蔽性。

之前提到过 domian 存放的是待解析域名，从入门案例中的 addUrl(String... urls) -> addRequest(Request request) 可以看到这条逻辑，当然不止这一处

public class Spider implements Runnable, Task {

	...
	
    private void addRequest(Request request) {
        if (this.site.getDomain() == null && request != null && request.getUrl() != null) {
        	// 将清洗过的 url 存放到 Site 的 domain 属性中
            this.site.setDomain(UrlUtils.getDomain(request.getUrl()));
        }

        this.scheduler.push(request, this);
    }
    
	...

}

在上篇：Java-网络爬虫(一) 博客中有通过 HttpClient 的 execute(HttpUriRequest var1) 方法来发送请求（HttpGet、HttpPost...均实现了 HttpUriRequest）

        // 创建 httpClient 对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        // 创建 httpGet 对象，设置访问 URL
        HttpGet httpGet = new HttpGet("https://www.rgbku.com/chaxun.html");
        // 发送请求
        response = httpClient.execute(httpGet);

在 webMagic 中底层也是使用 HttpClient 来发送请求的，不够首先要通过 Site 和 Request 获取到 HttpUriRequest 和 HttpContext 对象，进而就可以执行HttpClient 的 execute(HttpUriRequest var1, HttpContext var2) 方法发送请求获取响应信息了

Page

Page 对象是用于处理和封装从目标网站下载得到的 HTML 页面内容的一种对象

该对象最重要的两个作用就是获取 Html 对象，而 Html 对象是解析网页十分重要的对象，其次是该 Page 对象能够能够将封装好的 ResultItems 对象传送给存储器 Pipeline 做持久化处理

常用方法：

方法	说明
getHtml()	获取当前页面的 `Html`对象
String getRawText()	获取当前页面的文本内容
putField(String key, Object field)	以 `key-value` 的形式封装信息到 `ResultItems` 中

ResultItems

ResultItems 是一个 Map 对象，用于保存 PageProcessor 处理的结果，供Pipeline使用。它的 API 与 Map 类似，可以保存各种类型的数据，包括字符串、列表、字典等

ResultItems 的主要作用是作为 PageProcessor 和 Pipeline 之间的数据传输媒介。当 PageProcessor 处理完一个页面后，可以将处理结果保存到 ResultItems 中，然后由 Pipeline 进行处理。这样可以方便地实现数据的提取、清洗、过滤等操作，并将结果持久化到文件、数据库等地方

ResultItems 还提供了一些额外的方法来控制结果的输出和处理。例如，可以通过 setSkip(true) 方法来跳过当前的结果，不进行后续的处理和输出。此外，ResultItems 还提供了 getExtra() 方法，用于获取一些自定义的数据和属性

总的来说，WebMagic 中的 ResultItems 是一个重要的组件，它充当了 PageProcessor 和 Pipeline 之间的桥梁，使得数据的处理和输出更加灵活和方便。

Html（Selectable）

通过入门案例中使用 page.getHtml() 能够获取到一个 Html 对象，解析相关的操作都与该对象有关，而这个对象实现了 Selectable

在 WebMagic 中，Selectable 是一个重要的接口，它定义了一系列链式 API 调用方式

抽取元素的四种方式：

Selectable 里主要支持了四种抽取技术：XPath、正则表达式和 CSS 选择器。另外，对于 JSON 格式的内容，可使用 JsonPath 进行解析。

方式一：XPath 选择器

XPath 的教程可参考：https://www.w3cschool.cn/xpath/

例如：入门案例中获取标签中的链接的代码可改写为：

List<String> href = html.xpath("//div[@class=zh]/div/span/a/@href").all();

方式二：regex（正则表达式）选择器

正则表达式-基础教程：https://blog.csdn.net/xhmico/article/details/126729869

正则表达式是一种通用的文本抽取语言，一般会用这种方式获取 url 地址等

例如：入门案例中获取标签中的链接的代码可改写为：

page.putField("links", page.getHtml().regex("[a-zA-z]+://[^\\s][^\" ]*").all());

CSS 选择器

入门案例中使用的就是这种方式获取元素，CSS 选择器是与 XPath 类似的语言，但相对于 XPath 而言简单一点，只要对 css 语法熟悉，写起来应该是比较简单的。比方说入门案例标签中的链接的代码还可以改成：

List<String> href = html.css(".zh a", "href").all();

JsonPath 选择器

JsonPath 是于 XPath 很类似的一个语言，它用于从 Json 中快速定位一条内容

关于它的使用可参考：JsonPath完全介绍及详细使用教程

API：

Selectable 提供了一系列链式 API 调用方式，支持多种选择器，包括 xpath、css、regex和 jsonPath 等。用户可以使用这些选择器方便地获取所需元素的信息，同时还提供了诸如获取链接等便利方法。简单来说就是根据特定的方法抽取 html 页面的信息。使用 Selectable 接口，可以直接完成页面元素的链式抽取，也无需去关心抽取的细节。

public interface Selectable {
    Selectable xpath(String var1);

    Selectable $(String var1);

    Selectable $(String var1, String var2);

    Selectable css(String var1);

    Selectable css(String var1, String var2);

    Selectable smartContent();

    Selectable links();

    Selectable regex(String var1);

    Selectable regex(String var1, int var2);

    Selectable replace(String var1, String var2);

    String toString();

    String get();

    boolean match();

    List<String> all();

    Selectable jsonPath(String var1);

    Selectable select(Selector var1);

    Selectable selectList(Selector var1);

    List<Selectable> nodes();
}

以下是 Selectable 常用 API 的介绍

方法	说明	示例
Selectable xpath(String var1)	使用 `XPath` 选择器	html.xpath(“//div[@class=‘title’]”)
Selectable regex(String var1)	使用正则表达式抽取	html.regex(“(.*?)”)
Selectable regex(String var1, int var2)	使用正则表达式抽取，并指定捕获组	html.regex(“(.*?)”,1)
Selectable $(String var1)	使用 `Css` 选择器选择	html.$(“div.title”)
Selectable $(String var1, String var2)	使用 `Css` 选择器选择	html.$(“div.title”,“text”)
Selectable css(String var1)	功能同`$()`，使用 `Css` 选择器选择	html.css(“div.title”)
Selectable css(String var1, String var2)	功能同`$()`，使用Css选择器选择	html.css(“div.title”,“text”)
Selectable jsonPath(String var1)	使用 `JsonPath` 选择器选择	html.jsonPath(“$.*”)
`Selectable links()`	`获取所有链接，如果链接为相对地址会自动拼接`	html.links()
Selectable replace(String regex, String replacement)	替换内容	html.replace(“”,“”)
String get()	返回一条String类型的结果	String link= html.links().get()
String toString()	功能同 `get()`，返回一条 `String` 类型的结果	String link= html.links().toString()
List all()	返回所有抽取结果	List links= html.links().all()
boolean match()	是否有匹配结果	boolean result = html.links().match()

Html 除了 Selectable 这些常用的 API 外还有如下几个方法用得也比较多

方法	说明
Document getDocument()	获取 `Document` 对象
static Html create(String text)	通过文本获取 `Html` 对象

从这些 API 中可以看出，那些抽取元素的方法返回的都是 Selectable 对象，也就是说抽取是支持链式调用的，

例如：入门案例中获取标签中的链接的代码可改写为：

        List<String> href = html
                // css 选择类为 zh 的标签
                .css(".zh")
                // 获取其下所有的链接
                .links() // 使用这种方式获取链接，如果链接是相对地址的形式会自动进行拼接
                .all();

输出：

2. 四大组件

Downloader

前面就有提到过 Downloader 的作用就是负责从互联网上下载页面

Downloader 的输入是 Request 输出是 Pag，可见 Downloader.java 源码：

public interface Downloader {

    Page download(Request var1, Task var2);

    void setThread(int var1);
}

默认情况下 Spider 配置的 Downloader 为 HttpClientDownloader，可以从 initComponent() 方法中得出

查看 HttpClientDownloader.java 源码中的 download() 方法

public class HttpClientDownloader extends AbstractDownloader {

	...

	    public Page download(Request request, Task task) {
        if (task != null && task.getSite() != null) {
            CloseableHttpResponse httpResponse = null;
            // 获取 HttpClient 对象
            CloseableHttpClient httpClient = this.getHttpClient(task.getSite());
            Proxy proxy = this.proxyProvider != null ? this.proxyProvider.getProxy(request, task) : null;
            // 通过 Request 和 Site 得到 HttpUriRequest、HttpContext
            HttpClientRequestContext requestContext = this.httpUriRequestConverter.convert(request, task.getSite(), proxy);
            Page page = Page.fail(request);

            Page var9;
            try {
            	// 发起请求
                httpResponse = httpClient.execute(requestContext.getHttpUriRequest(), requestContext.getHttpClientContext());
                // 解析响应体并封装成 Page 返回
                page = this.handleResponse(request, request.getCharset() != null ? request.getCharset() : task.getSite().getCharset(), httpResponse, task);
                this.onSuccess(page, task);
                this.logger.info("downloading page success {}", request.getUrl());
                Page var8 = page;
                return var8;
            } catch (IOException var13) {
                this.onError(page, task, var13);
                this.logger.info("download page {} error", request.getUrl(), var13);
                var9 = page;
            } finally {
                if (httpResponse != null) {
                    EntityUtils.consumeQuietly(httpResponse.getEntity());
                }

                if (this.proxyProvider != null && proxy != null) {
                    this.proxyProvider.returnProxy(proxy, page, task);
                }

            }

            return var9;
        } else {
            throw new NullPointerException("task or site can not be null");
        }
    }
	
	...
}

如果希望下载页面时进行一些其它的操作，可以自定义 Downloader，要么实现 Downloader 接口，要么继承实现了 Downloader 接口的子类，比如：HttpClientDownloader

如果想要自定义的 Downloader 生效，就需要在 spider.setDownloader() 方法中进行设置，比如：

        Spider.create(new TestProcessorDemo())
                // 设置起始的 URL
                .addUrl("https://www.rgbku.com/chaxun.html")
                // 设置自定义 Downloader
                .setDownloader(new MyDownload())
                // 在当前线程中执行爬虫
                .run();
                // 在新线程中执行爬虫
                //.start();

PageProcessor

PageProcessor 的作用就是负责解析页面的

它的输入是 Page 对象，process() 方法中实现页面解析的逻辑，PageProcessor.java 源码如下：

public interface PageProcessor {

    void process(Page var1);

    default Site getSite() {
        return Site.me();
    }
}

而页面的解析是开发者根据需求去编写，也就是说要开发者去实现，webMaic 也没办法提供默认的 PageProcessor, 所以使用 webMaigc 编写爬虫的时候都需要去实现 PageProcessor 接口或者继承实现了 PageProcessor 接口的类，比如：SimplePageProcessor。而解析的结果最好是封装到 ResultItems 中交给 Pipeline 进行处理，Page 对象中可以通过 putField(String key, Object field) 方法直接将对象封装到 ResultItems 中

public class Page {

	...
	
    public void putField(String key, Object field) {
        this.resultItems.put(key, field);
    }
	
	...
}

Scheduler

Scheduler 负责管理待抓取的 URL

Scheduler.java 源码：

public interface Scheduler {
    void push(Request var1, Task var2);

    Request poll(Task var1);
}

Scheduler 默认是 QueueScheduler，可查看 Spider.java 的源码得出

而 QueueScheduler 的底层就如同它的类名一样，是个队列

之前说过 Downloader 下载页面时需要 Request 对象，而这些 Request 对象都是从 Scheduler 中拉取而来的，包括起始的 url 也是会先放到 Scheduler，可以从入门案例中的 spider.addUrl() 方法去追溯源码证实

也可以从进入入门案例 sipder.run() 方法中看到传入 Downloader 的 Request 是从 Scheduler 中获取的

同时 Scheduler 也可以自定义，只需要实现 Scheduler 接口或者继承其实现类，比如：QueueScheduler 即可，然后通过 spider.setScheduler() 方法去设置，例如：

        Spider.create(new TestProcessorDemo())
                // 设置起始的 URL
                .addUrl("https://www.rgbku.com/chaxun.html")
                // 设置自定义 Scheduler
                .setScheduler(new MyScheduler())
                // 在当前线程中执行爬虫
                .run();
                // 在新线程中执行爬虫
                //.start();

Pipeline

Pipeline 负责抽取结果的处理，包括计算、持久化到文件、数据库等

Pipeline.java 源码：

public interface Pipeline {
    void process(ResultItems var1, Task var2);
}

默认情况下，webMaigc 的使用的 Pipeline 是 ConsolePipeline，可查看 Spider.initComponent() 的方法源码得知：

ConsolePipeline 的处理就是将封存在 ResultItems 里的内容打印到控制台上

ConsolePipeline.java 源码：

public class ConsolePipeline implements Pipeline {
    public ConsolePipeline() {
    }

    public void process(ResultItems resultItems, Task task) {
        System.out.println("get page: " + resultItems.getRequest().getUrl());
        Iterator var3 = resultItems.getAll().entrySet().iterator();

        while(var3.hasNext()) {
            Entry<String, Object> entry = (Entry)var3.next();
            System.out.println((String)entry.getKey() + ":\t" + entry.getValue());
        }

    }
}

Spider 中可以配置多个 Pipeline

通常情况下开发者会自定义 Pipeline，将爬取的数据存放在数据库中，自定义的方式就是实现 Pipeline 接口重写 process() 方法，通过 spider.setPipelines() 来设置，例如：

        List<Pipeline> pipelines = new ArrayList<>();
        // 添加输出到控制台的 Pipeline：ConsolePipeline
        pipelines.add(new ConsolePipeline());
        // 添加保存到文本的 Pipeline：FilePipeline
        pipelines.add(new FilePipeline());
        // 添加自定义自定义 Pipeline
        pipelines.add(new MyPipeline());

        Spider.create(new TestProcessorDemo())
                // 设置起始的 URL
                .addUrl("https://www.rgbku.com/chaxun.html")
                // 设置 Pipeline
                .setPipelines(pipelines)
                // 在当前线程中执行爬虫
                .run();
                // 在新线程中执行爬虫
                //.start();

上篇：Java-网络爬虫(一)

参考博客：

WebMagic：https://blog.csdn.net/weixin_40055163/article/details/123541437

JsonPath完全介绍及详细使用教程：https://blog.csdn.net/software_test010/article/details/125427926

你可能感兴趣的:(java,爬虫,开发语言)

Java多线程——线程安全性松仔log #java多线程 java 开发语言 android
线程安全性当多个线程访问某个类时，这个类始终都能表现出正确的行为，那么就称这个类是线程安全的publicclassA{publicvoidtest(){//....}}无状态对象是线程安全的，其不包含任何域，也不包含任何对其他类中域的引用，调用过程产生的临时状态也仅存在于线程栈上的局部变量中竞态条件publicclassA{privatelongcount;publiclonggetCount()
Java多线程——对象的共享松仔log #java多线程 java 开发语言
可见性一个线程修改了对象状态后，其他线程能够看到发生的状态变化publicclassNoVisibility{privatestaticbooleanready;privatestaticintnumber;privatestaticclassReaderThreadextendsThread{@Overridepublicvoidrun(){while(!ready)Thread.yield()
基于SSM的在线作业管理系统 -octopus-master（源码+调试）程序猿麦小七毕业设计 Java 后台 Java Web 服务器 linux 数据库在线作业
项目描述临近学期结束，还是毕业设计，你还在做java程序网络编程，期末作业，老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。你想解决的问题，今天给大家介绍一篇基于SSM的在线作业管理系统设计与实现。功能需求本在线作业管理系统通过分析和确定系统的角色和功能划分，按照业务合理区分为不同的菜单功能模块。从用户角度出发，对每个功能的需求实现点进行人性化
#Java 与 C++ 核心差异详解：从语法到实战的代码对比新宿椎名琳擒 java 开发语言
##一、语言定位差异||Java|C++|设计目标|"Writeonce,runanywhere"|"高性能系统级开发"|运行方式|JVM解释执行字节码|直接编译为机器码|典型场景|企业应用/Android/大数据|游戏引擎/操作系统/高频交易系统---###二、基础语法对比####1.HelloWorld程序```java//Java:严格面向对象publicclassHelloWorld{
Java多线程——对象的组合松仔log #java多线程 java 开发语言 jvm
设计线程安全的类找出构成对象状态的所有变量找出约束状态变量的不变性条件建立对象状态的并发访问管理策略实例封闭当一个对象被封装到另一个对象中，能够访问被封装对象的所有代码路径都是已知的。通过封闭和加锁，可以确保以线程安全的方式使用非线程安全的对象classMutablePoint{publicintx,y;publicMutablePoint(){x=0;y=0;}publicMutablePoin
Java集合之Collection知识总结皮蛋不吃粥基础知识 java 集合
一、前言java集合是一个较为基础的框架，本次主要是整理积累的知识，供复习使用，同时也感谢Guide大佬提供的参考文献。目录一、前言二、整体概览三、List结构差异性ArrayList和Vector区别Arraylist与LinkedList区别什么是Stack？四、Set无序性和不可重复性比较器Comparable和Comparator区别HashSetLinkedHashSetTreeSet区
基于SSM的亲子活动平台的搭建与实现（源码+数据脚本+论文+技术文档）程序猿麦小七毕业设计 Java 后台 Java Web 亲子活动商家入驻 SSM
项目描述临近学期结束，还是毕业设计，你还在做java程序网络编程，期末作业，老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下，你想解决的问题，今天给大家介绍一篇基于SSM的亲子活动平台的搭建与实现。功能需求本文研究基于javaWeb的亲子活动平台的搭建与实现，通过分析现在大部分的家庭对孩子影响以及陪伴的情况，对亲子活动平台的项目
Java程序设计（三十九）：基于SSM框架的每日健康管理系统的实现与数据分析人工智能_SYBH 2025年java程序设计 java 数据分析开发语言微信小程序 notepad++程序设计数据挖掘
目录引言系统需求分析2.1功能需求2.2非功能需求系统架构设计3.1技术栈3.2系统架构图数据库设计系统实现5.1后端实现5.1.1Spring配置5.1.2控制器实现5.1.3服务层与DAO层实现5.2前端实现5.2.1页面设计5.2.2AJAX请求实现数据分析与可视化创新点与未来展望总结引言随着社会的进步与人们健康意识的提升，健康管理成为了越来越重要的主题。本文介绍了一种基于SSM框架的每日健
什么是事件循环（Event Loop）？请谈谈它在 JavaScript 中的作用？程序员黄同学前端开发 JavaScript javascript 开发语言 ecmascript
事件循环（EventLoop）是什么？事件循环（EventLoop）是JavaScript运行时环境（如浏览器或Node.js）中的一个核心机制，用于处理异步操作和事件。它负责协调代码的执行、事件的处理、以及异步操作的调度。事件循环的基本工作原理是通过一个循环不断地从事件队列中取出事件并处理它们。事件循环在JavaScript中的作用事件循环的主要作用是确保JavaScript代码能够以非阻塞的方
Python必备库大全，建议留用 2401_86437188 python 开发语言
mechanize-有状态、可编程的Web浏览库。socket–底层网络接口(stdlib)。UnirestforPython–Unirest是一套可用于多种语言的轻量级的HTTP库。hyper–Python的HTTP/2客户端。PySocks–SocksiPy更新并积极维护的版本，包括错误修复和一些其他的特征。作为socket模块的直接替换。网络爬虫框架1.功能齐全的爬虫grab–网络爬虫框架（
Selenium之免登录获取CSDN代码块内容(Java) fuqying selenium java
Selenium安装配置可见：Selenium安装及配置和Python/Java案例-CSDN博客免登录获取CSDN代码块内容packagecom.fuqying;importorg.openqa.selenium.By;importorg.openqa.selenium.JavascriptExecutor;importorg.openqa.selenium.WebDriver;importor
JavaEE 与 JakartaEE fuqying java-ee java
2009年4月20日：Oracle和SUN共同宣布了最终协议，Oracle将以74亿美元收购SUN公司2018年：Oracle决定将JavaEE（JavaSE还自己保留）移交给开源组织Eclipse基金会，但涉及到商标和版权原因，Oracle不允许开源组织用Java的名号。于是Eclipse选出了"JakartaEE"和"EnterpriseProfile"两个名字，最终前者胜出。所以Jakart
Selenium安装及配置和Python/Java案例 fuqying python selenium java
什么是Selenium？Selenium起源2004年，是一个开源、免费、简单、灵活，对Web浏览器支持良好的自动化测试工具，在UI自动化、爬虫等场景下是十分实用的。Selenium的用途*Selenium*有很多功能，但其核心是Web浏览器自动化的一个工具集，它使用最好的技术来远程控制浏览器实例，并模拟用户与浏览器的交互。它允许用户模拟终端用户执行的常见活动；将文本输入到字段中，选择下拉值和复选
Java后端数据库迁移策略：Flyway与Liquibase 梧桐醴泉铭 java 数据库开发语言
Java后端数据库迁移策略：Flyway与Liquibase大家好，我是微赚淘客返利系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！数据库迁移的重要性在软件开发过程中，数据库的版本控制和迁移是必不可少的。随着应用的发展，数据库结构需要不断更新以适应新的业务需求。数据库迁移工具可以帮助开发者自动化这一过程，减少人为错误。Flyway数据库迁移工具Flyway是一个开源的数据库迁移工具，它使
SpringBoot数据库管理 - 用flyway对数据库管理和迁移 JavaMonsterr 计算机程序员 Java java spring boot
知识准备需要了解Flyway和要解决的问题，以及一些基础概念，比如变迁(migrations)，常用命令(commands)等。什么是Flyway?要解决什么问题？Flyway是一款数据库迁移（migration）工具。简单点说，就是在你部署应用的时候，帮你执行数据库脚本的工具。Flyway支持SQL和Java两种类型的脚本，你可以将脚本打包到应用程序中，在应用程序启动时，由Flyway来管理这些
java 订单状态_JAVA设计模式-状态模式-State-订单状态 weixin_40002611 java 订单状态
行为取决于它的状态，即是说由状态决定行为，方法放在状态类中，而状态控制亦在状态类中进行，譬如一个按钮，按一次是开，按一次是关，同一个行为，但是由于其状态的改变，而导致不同的结果。一个操作中含有庞大的多分支的条件语句，且这些分支依赖于该对象的状态。这个状态通常用一个或多个枚举常量表示。通常,有多个操作包含这一相同的条件结构。State模式将每一个条件分支放入一个独立的类中。这使得你可以根据对象自身的
python实例化类的存储内存地址_【JVM之内存与垃圾回收篇】对象实例化内存布局与访问定位... 学姐吖
对象实例化内存布局与访问定位从各自具体的内存分配上来讲new的对象放在堆中对象所属的类型信息是放在方法区的方法当中的局部变量放在栈空间这new的对象怎么把三块粘合到一起就是这章的内容了对象实例化面试题美团：对象在JVM中是怎么存储的？对象头信息里面有哪些东西？蚂蚁金服：二面Java对象头有什么？从对象创建的方式和步骤开始说对象创建方式new：最常见的方式，单例类中调用getInstance的静态类
java对象实例化内存布局与访问定位苍鹰蛟龙 JVM 内存布局访问定位对象句柄直接内存
文章目录1.对象实例化方式2.对象创建的步骤3.对象的内存布局4.对象的访问定位1.对象实例化方式通过new的方式，例如Persionp=newPersion()通过Class的newInstance()该方式已经被标记过时，这种创建对象的方式有一定局限性：只能创建构造函数为无参的对象；只能创建构造函数为pulic类型的。通过Constructor的newInstance这种方式正好弥补了Clas
自动生成关于软件程序开发的100个文件并可提供下载入口唐城 postgresql 数据库人工智能电脑机器人
创建一个包含100个关于软件程序开发的文件并提供下载入口是一个庞大的任务，因为这需要编写大量的代码、文档和示例。不过，我可以提供一个大致的框架和指导，帮助你生成这些文件，并说明如何设置下载入口。文件生成思路编程语言文件：每种主流编程语言（如Python、Java、C++、JavaScript等）的HelloWorld程序。数据结构示例（链表、树、图等）。算法实现（排序、搜索等）。项目模板：Web项
JavaWeb——CSS的使用糖JL是我儿 JavaWeb css 前端 javascript
CSS层叠样式表(英文全称:(cascadingstlesheets)能够对网页中元素位置的排版进行像素级精确控制，支持几乎所有的字体字号样式，拥有对网页对象和模型样式编辑的能力,简单来说,CSS用来美化页面一、CSS的引入方式:1.行内式：通过元素开始标签的style属性引入语法:style="样式名:样式值;样式名:样式值;......"缺点:代码复用度低，不利于维护CSS样式和HTML结构代
Hadoop3.2.1安装-单机模式和伪分布式模式花菜回锅肉大数据 hadoop hdfs 大数据 linux
Hadoop入门篇概述Hadoop是使用Java编写的，是为了解决大数据场景下的两大问题，分布式存储和分布式处理而诞生的，包含很多组件、套件。需要运行在Linux系统下。主要包括HDFS和MapReduce两个组件。下载安装下载下载地址https://archive.apache.org/dist/hadoop/common/选择合适自己的tar.gz版本下载,该文档选择V3.2.1。Hadoop
说说 Java 中 HashMap 的原理？一只蜘猪【2025最新版】Java 集合面试题 java 哈希算法散列表面试 HashMap
回答重点HashMap是基于哈希表的数据结构，用于存储键值对（key-value）。其核心是将键的哈希值映射到数组索引位置，通过数组+链表（在Java8及之后是数组+链表+红黑树）来处理哈希冲突。HashMap使用键的hashCode()方法计算哈希值，并通过indexFor方法（JDK1.7及之后版本移除了这个方法，直接使用(n-1)&hash）确定元素在数组中的存储位置。哈希值是经过一定扰动处
每日 Java 面试题分享【第 16 天】一只蜘猪【2025最新版】Java 基础面试题 java 开发语言面试
欢迎来到每日Java面试题分享栏目！订阅专栏，不错过每一天的练习今日分享3道面试题目！评论区复述一遍印象更深刻噢~目录问题一：Java运行时异常和编译时异常之间的区别是什么？问题二：什么是Java中的继承机制？问题三：什么是Java的封装特性？问题：Java运行时异常和编译时异常之间的区别是什么？面试官考察点异常分类理解：对Java异常体系（Throwable、Error、Exception、Ru
每日 Java 面试题分享【第 20 天】一只蜘猪【2025最新版】Java 基础面试题 java 开发语言面试 IO
欢迎来到每日Java面试题分享栏目！订阅专栏，不错过每一天的练习今日分享3道面试题目！评论区复述一遍印象更深刻噢~目录问题一：什么是BIO、NIO、AIO？问题二：什么是Channel？问题三：什么是Selector？问题一：什么是BIO、NIO、AIO？面试官视角拆解：这个问题考察对JavaI/O模型的体系化理解，以及不同场景下的技术选型能力。回答要体现三个层次：基础概念对比（核心特征+工作机制
Java设计模式之状态模式架构高扩展的订单状态管理程风破～ Java Java设计模式实战 java 设计模式状态模式
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新
Apache HttpClient源码深度解析张锦云
本文还有配套的精品资源，点击获取简介：HttpClient是一个开源HTTP客户端库，由Apache基金会开发，广泛用于Java应用程序中进行HTTP通信。本源码包包括了核心组件，如HttpClient、HttpCore、HttpRequestExecutor等，支持HTTPS、代理、Cookie管理、重试策略等丰富功能。本文旨在详细介绍HttpClient的主要组件和使用方法，包括构建HttpC
Java使用HttpClient5实现发送HTTP请求 pan_junbiao Java 我の原创 java http 开发语言
Java实现发送HTTP请求，系列文章：《Java使用原生HttpURLConnection实现发送HTTP请求》《Java使用HttpClient5实现发送HTTP请求》《SpringBoot使用RestTemplate实现发送HTTP请求》1、HttpClient5的介绍HttpClient5是ApacheHttpComponents项目中的一个重要组件，它是一个功能齐全且高度可定制的HTTP
hutool的安装和使用 SAFE20242034 spring boot 数据库
Hutool是一个小巧但强大的Java工具包，提供了许多实用的工具类，极大地提高了Java开发的效率。它封装了常见的工具方法，避免了重复造轮子。Hutool的核心模块Hutool提供多个模块，每个模块都有不同的功能，常见的有：core（核心工具类）：包含字符串、集合、日期、IO、反射等基础工具类。extra（扩展工具类）：支持邮件、二维码、模板引擎等功能。db（数据库操作）：基于JDBC简化数据库
Clojure语言的文件操作萧月霖包罗万象 golang 开发语言后端
Clojure语言的文件操作Clojure是一种现代的函数式编程语言，运行于Java虚拟机（JVM）之上，使得它可以生成高效的字节码并可以与Java类库无缝集成。在Clojure中，文件操作是一个常见的需求，不论是在数据处理、日志记录还是配置管理中。本文将深入探讨Clojure语言的文件操作，包括读取文件、写入文件、文件遍历及处理文件异常等方面的内容。一、环境准备在进行文件操作之前，请确保你的环境
【JavaSE】文件 IO（操作文件） Undefined name！ JavaSE java 文件操作文件IO
文章目录1.操作文件系统File常用属性及方法1.1属性1.2构造方法1.3方法2.操作文件内容——数据流2.1字节流2.2字符流2.2.1Reader2.2.2Writer操作系统会将硬件设备和软件资源都抽象为”文件“，统一进行管理。大部分情况下，文件指的是硬盘的文件，即对硬盘数据的抽象，因此可以通过文件来操作硬盘。计算机上的文件通过文件系统来进行组织和管理，操作系统通过目录的结构来组织文件。文
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他