kevin_xu

Heritrix的使用入门

10.3 扩展和定制Heritrix

在前面两节中，向读者介绍了Heritrix的启动、创建任务、抓取网页、组件结构。但是，读者应该也可以明显的看出，如果不用Heritrix抓取和分析网页的行为进行一定的控制，它是无法达到要求的。

对Heritrix的行为进行控制，是要建立在对其架构充分了解的基础之上的，因此，本节的内容完全是基于上一节中所讨论的基础。

10.3.1 向Heritrix中添加自己的Extractor

很明显，Heritrix内嵌的Extractor并不能够很好的完成所需要的工作，这不是说它不够强大，而是因为在解析一个网页时，常常有特定的需要。比如，可能只想抓取某种格式的链接，或是抓取某一特定格式中的文本片断。Heritrix所提供的大众化的Extractor只能够将所有信息全部抓取下来。在这种情况下，就无法控制Heritrix到底该抓哪些内容，不该抓哪些内容，进而造成镜象信息太复杂，不好建立索引。

以下就使用一个实例，来讲解该如何定制和使用Extractor。这个实例其实很简单，主要功能就是抓取所有在Sohu的新闻主页上出现的新闻，并且URL格式如下所示。

http://news.sohu.com/20061122/n246553333.shtml

（1）分析一下这个URL可以知道，其中的主机部分是http://news.sohu.com，这是搜狐新闻的域名，“20061122”应该表示的是新闻的日期，而最后的“n246553333.shtml”应该是一个新闻的编号，该编号全部以“n”打头。

（2）有了这样的分析，就可以根据URL的特点，来定出一个正则表达式，凡是当链接符合该正则表达式，就认为它是一个潜在的值得抓取的链接，将其收藏，以待抓取。正则表达式如下：

http://news.sohu.com/[\\d]+/n[\\d]+.shtml

（3）事实上所有的Extractor均继承自org.archive.crawler.extractor.Extractor这个抽象基类，在它的内部实现了innerProcess方法，以下便是innerProcess的实现：

代码10.10

public void innerProcess(CrawlURI curi) {

try {

* 处理链接

extract(curi);

} catch (NullPointerException npe) {

curi.addAnnotation("err=" + npe.getClass().getName());

curi.addLocalizedError(getName(), npe, "");

logger.log(Level.WARNING, getName() + ": NullPointerException", npe);

} catch (StackOverflowError soe) {

curi.addAnnotation("err=" + soe.getClass().getName());

curi.addLocalizedError(getName(), soe, "");

logger.log(Level.WARNING, getName() + ": StackOverflowError", soe);

} catch (java.nio.charset.CoderMalfunctionError cme) {

curi.addAnnotation("err=" + cme.getClass().getName());

curi.addLocalizedError(getName(), cme, "");

logger.log(Level.WARNING, getName() + ": CoderMalfunctionError", cme);

}

这个方法中，大部分代码都用于处理在解析过程中发生的各种异常和日志写入，不过，它为所有的Extractor定义了新的一个接口extract(CrawlURI)，也就是说，所有的Extractor继承自它后，只需实现extract方法就可以了。以下是扩展Extractor时要做的几件事：

（1）写一个类，继承Extractor的基类。

（2）在构造函数中，调用父类的构造函数，以形成完整的家族对象。

（3）继承extract(curi)方法。

为了实现抓取news.sohu.com首页上所有新闻的链接，所开发的Extractor的完整源代码如下所示。

代码10.11

package my;

import java.io.IOException;

import java.util.logging.Level;

import java.util.logging.Logger;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.apache.commons.httpclient.URIException;

import org.archive.crawler.datamodel.CrawlURI;

import org.archive.crawler.extractor.Extractor;

import org.archive.crawler.extractor.Link;

import org.archive.io.ReplayCharSequence;

import org.archive.util.HttpRecorder;

public class SohuNewsExtractor extends Extractor {

private static Logger logger = Logger.getLogger(SohuNewsExtractor.class

.getName());

// 构造函数

public SohuNewsExtractor(String name) {

this(name, "Sohu News Extractor");

}

// 构造函数

public SohuNewsExtractor(String name, String description) {

super(name, description);

}

// 第一个正则式，用于匹配SOHU新闻的格式

public static final String PATTERN_SOHU_NEWS =

"http://news.sohu.com/[\\d]+/n[\\d]+.shtml";

// 第二个正则式，用于匹配所有的<a href="xxx">

public static final String PATTERN_A_HREF =

"<a\\s+href\\s*=\\s*(\"([^\"]*)\"|[^\\s>])\\s*>";

// 继承的方法

protected void extract(CrawlURI curi) {

// 将链接对象转为字符串

String url = curi.toString();

* 下面一段代码主要用于取得当前链接的返回字符串，以便对内容进行分析时使用

ReplayCharSequence cs = null;

try {

HttpRecorder hr = curi.getHttpRecorder();

if (hr == null) {

throw new IOException("Why is recorder null here?");

}

cs = hr.getReplayCharSequence();

} catch (IOException e) {

curi.addLocalizedError(this.getName(), e,

"Failed get of replay char sequence " + curi.toString()

+ " " + e.getMessage());

logger.log(Level.SEVERE, "Failed get of replay char sequence in "

+ Thread.currentThread().getName(), e);

}

// 如果什么也没抓取到，就返回

if (cs == null) {

return;

}

// 将链接返回的内容转成字符串

String content = cs.toString();

try {

// 将字符串内容进行正则匹配

// 取出其中的链接信息

Pattern pattern = Pattern.compile(PATTERN_A_HREF,

Pattern.CASE_INSENSITIVE);

Matcher matcher = pattern.matcher(content);

// 若找到了一个链接

while (matcher.find()) {

String newUrl = matcher.group(2);

// 查看其是否为SOHU新闻的格式

if (newUrl.matches(PATTERN_SOHU_NEWS)) {

// 若是，则将链接加入到队列中

// 以备后续处理

addLinkFromString(curi, newUrl, "", Link.NAVLINK_HOP);

}

} catch (Exception e) {

e.printStackTrace();

}

// 将链接保存记录下来，以备后续处理

private void addLinkFromString(CrawlURI curi, String uri,

CharSequence context, char hopType) {

try {

curi.createAndAddLinkRelativeToBase(uri, context.toString(),

hopType);

} catch (URIException e) {

if (getController() != null) {

getController().logUriError(e, curi.getUURI(), uri);

} else {

logger.info("Failed createAndAddLinkRelativeToBase "

+ curi + ", " + uri + ", " + context + ", "

+ hopType + ": " + e);

}

在上面代码的extract()方法中：

（1）首先是将Fetcher所获得的链接的HTML响应取得，并转成字符串，这样，才有可能在后面对页面中的链接做处理。

（2）从页面内容中，使用正则式取出所有链接的内容。判断链接是否符合Sohu的新闻格式，倘若符合，则调用addLinkFromString()方法，来将这个链接加入到某个队列缓存中，以备后续的处理。

在Extractor类开发完毕后，如果使用WebUI的方式启动Heritrix，并让它出现在下拉选项中，则需要修改Eclipse工程中的modules目录下的Processor.options文件，如图10-55所示。

图10-55 修改Processor.options文件

打开Processor.options文件可以看到，所有在WebUI中设置处理器链时，页面上的下拉列表中的数据都保存在了其中，为了加入我们开发的SohuNewsExtractor，只需在其中合适的位置上加入一行，内容如下所示：

my.SohuNewsExtractor|SohuNewsExtractor

接下来，再次启动Heritrix，创建一个任务，进入处理器链设置的页面，就可以看到自己开发的Extractor了，如图10-56所示。

图10-56 新加入的Extractor已经在下拉菜单中显示出来

选择后，单击“Add”按钮，就可以将其加入到队列中，如图10-57所示。

图10-57 已经加入到处理器队列中

需要注意的是，一定要将其置于ExtractorHTTP的后面，以保证Heritrix能够先行处理HTTP协议中的相关内容。与加入自己定制的Extractor的过程类似，开发者们也可以定制其他几种处理器。同样，只需要在modules目录下找到相应的.options文件，然后将类全名加入即可。

10.3.2 定制Queue-assignment-policy两个问题

首先提出两个问题：

l 什么是Queue-assignment-policy

l 为什么要改变Queue-assignment-policy

在10.2节中，向读者介绍过了Heritrix的架构。其中，讲解了Heritrix使用了Berkeley DB来构建链接队列。这些队列被置放于BdbMultipleWorkQueues中时，总是先给予一个Key，然后将那些Key值相同的链接放在一起，成为一个队列，也就是一个Queue。

这里就出现了一个问题，这个Key值到底该如何计算呢？事实上，这里也说的Key值，应该是做为一种标识符的形式存在。也就是说，它要与URL之间有一种内在的联系。

在Heritrix中，为每个队列赋上Key值的策略，也就是它的queue-assignment-policy。这就解答了第一个问题。

在默认的情况下，Heritrix使用HostnameQueueAssignmentPolicy来解决Key值生成的问题。仔细看一下这个策略的名称就知道，这种策略其实是以链接的Host名称为Key值来解决这个问题的。换句话也就是说，相同Host名称的所有URL都会被置放于同一个队列中间。

这种方式在很大程度上可以解决广域网中信息抓取时队列的键值问题。但是，它对于某个单独网站的网页抓取，就出现了很大的问题。以Sohu的新闻网页为例，其中大部分的URL都来自于sohu网站的内部，因此，如果使用了HostnameQueueAssignmentPolicy，则会造成有一个队列的长度非常长的情况。

在Heritrix中，一个线程从一个队列中取URL链接时，总是会先从队列的头部取出第一个链接，在这之后，这个被取出链接的队列会进入阻塞状态，直到待该链接处理完，它才会从阻塞状态中恢复。

假如使用HostnameQueueAssignmentPolicy策略来应对抓取一个网站中内容的情况，很有可能造成仅有一个线程在工作，而其他所有线程都在等待。这是因为那个装有绝大多数URL链接的队列几乎会永远处于阻塞状态，因此，别的线程根本获取不到其中的URI，在这种情况下，抓取工作会进入一种类似于休眠的状态。因此，需要改变queue-assignment-policy来避免发生这种情况，这也就回答了第二个问题。

10.3.3 定制Queue-assignment-policy继承QueueAssignmentPolicy类

那么，被改变的Key值的生成方式，应该具有什么样的要求呢？从上面的叙述中可以知道，这个Key值最重要的一点就是应该能够有效的将所有的URL散列到不同的队列中，最终能使所有的队列的长度的方差较小，在这种情况下，才能保证工作线程的最大效率。

任何扩展queue-assignment-policy的默认实现的类，均继承自QueueAssignmentPolicy并覆写了其getClassKey()方法，getClassKey方法的参数为一个链接对象，而我们的散列算法，正是要根据这个链接对象来返回一个值。

具体的算法就不说了，有许多种方法可以实现的。比如使用字符串的长度等，在百度上搜索URL散列算法，最为出名的就要算是ELFHash法了。关于它的实现，有兴趣的读者可以自行研究。

10.3.4 扩展FrontierScheduler来抓取特定的内容

FrontierScheduler是一个PostProcessor，它的作用是将在Extractor中所分析得出的链接加入到Frontier中，以待继续处理。先来看一下FrontierScheduler的innerProcess()方法，代码如下。

代码10.12

protected void innerProcess(final CrawlURI curi) {

if (LOGGER.isLoggable(Level.FINEST)) {

LOGGER.finest(getName() + " processing " + curi);

}

// 如果当前链接的处理结果中，有一些高优

// 先级的链接要被处理

if (curi.hasPrerequisiteUri() && curi.getFetchStatus() == S_DEFERRED) {

handlePrerequisites(curi);

return;

}

// 对当前这个Processor进行同步

synchronized(this) {

// 从处理结果中，取出所有链接进行循环

for (final Iterator iter = curi.getOutLinks().iterator();

iter.hasNext();) {

Object obj = iter.next();

CandidateURI cauri = null;

// 转型为CandidateURI

if (obj instanceof CandidateURI) {

cauri = (CandidateURI)obj;

} else {

LOGGER.severe("Unexpected type: " + obj);

}

// 调用schedule()方法

if (cauri != null) {

schedule(cauri);

}

protected void schedule(CandidateURI caUri) {

// 调用Frontier中的schedule()方法

// 将传入的链接加入到等待队列中

getController().getFrontier().schedule(caUri);

}

上面的代码中，首先检查当前链接处理后的结果集中是否有一些属于高优先级的链接，如果是，则立刻转走进行处理。如果没有，则对所有的结果集进行遍历，然后调用Frontier中的schedule方法加入队列进行处理。

在这里，innerProcess()中并未立刻使用Frontier中的schedule()方法，而是增加了一层封装，先调用了一个类内部的protected类型的schedule()方法，进而在这个方法中再调用Frontier的schedule方法。这种方式对FrontierScheduler进行扩展留出了很好的接口。

例如，当有某个任务在抓取时，可能希望人为的去除符合某种条件的URL链接，使得其内容不会保存到本地。比如，要去除所有的扩展名为.zip、.exe、.rar、.pdf和.doc的链接（其实也就是不想下载这类文件）。可以通过继承FrontierScheduler，并重写内部的schedule方法来达到我们的需要。以下是一个示例。

protected void schedule(CandidateURI caUri) {

String url = caUri.toString();

if (url.endsWith(".zip")

|| url.endsWith(".rar")

|| url.endsWith(".exe")

|| url.endsWith(".pdf")

|| url.endsWith(".doc")

|| url.endsWith(".xls")) {

return;

}

getController().getFrontier().schedule(caUri);

}

这样，每当Heritrix在执行任务时，遇到这样的文件，就会跳过抓取，从而达到了对URL链接进行筛选的目的。

10.3.5 在Prefetcher中取消robots.txt的限制

Robots.txt是一种专门用于搜索引擎网络爬虫的文件，当构造一个网站时，如果作者希望该网站的内容被搜索引擎收录，就可以在网站中创建一个纯文本文件robots.txt，在这个文件中，声明该网站不想被robot访问的部分。这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

Heritrix在其说明文档中，表明它是一个完全遵守robots.txt协议的网络爬虫。这一点固然在宣传上起到了一定的作用。但是，在实际的网页采集过程中，这并不是一种最好的作法。因为大部分的网站并不会放置一个robots.txt文件以供搜索引擎读取，在互联网信息以几何级数增长的今天，网站总是在希望自己的内容不被人所利用的同时，又希望自己能够被更多的用户从搜索引擎上检索到。

不过幸好，robots.txt协议本身只是一种附加的协议，网站本身并不能了解究竟哪些Socket联接属于爬虫哪些属于正常的浏览器连接。所以，不遵守robos.txt协议成为了更多搜索引擎的首选。

使用过Heritrix的朋友就会发现这样一个问题，如果当一个网站没有放置robots.txt文件时，Heritrix总是要花上大量的时间试图去访问这样一个文件，甚至可能retry很多次。这无疑很大的降低了抓取效率。因此，为了提高抓取的效率，可以试着将对robots.txt的访问部分去除。

在Heritrix中，对robots.txt文件的处理是处于PreconditionEnforcer这个Processor中的。PreconditionEnforcer是一个Prefetcher，当处理时，总是需要考虑一下当前这个链接是否有什么先决条件要先被满足的，而对robots.txt的访问则正好是其中之一。在PreconditionEnforcer中，有一个private类型的方法，它的方法签名为：

private boolean considerRobotsPreconditions(CrawlURI curi)

该方法的含义为：在进行对参数所表示的链接的抓取前，看一下是否存在一个由robots.txt所决定的先决条件。很显然，如果对每个链接都有这样的处理。那么，很有可能导致整个抓取任务的失败。因此，需要对它进行调整。

这个方法返回true时的含义为需要考虑robots.txt文件，返回false时则表示不需要考虑robots.txt文件，可以继续将链接传递给后面的处理器。所以，最简单的修改办法就是将这个方法整个注释掉，只留下一个false的返回值。经过笔者的试验，这种方法完全可行，抓取的速度提高了至少一半以上！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
如何成为段子手欣雅阅读
我是一个尬聊大师，与朋友聊天经常把话题聊死，留我一个人在群里，望着自己打下的最后一句话无语凝噎。看到风趣幽默的朋友与人聊天，很是艳羡，觉得自己何时才能成为这样的段子手呢？一、段子是什么？“段子”一词在百度百科上的解释：本是相声中的一个艺术术语，指的是相声作品中一节或一段艺术内容。我的理解：段子就是一些搞笑的故事或者笑话。二、为什么要会说段子？不知道大家有没有这样的朋友，本来很无趣的聚会，只要有他参
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
手机上有什么兼职可以做？网上兼职一单一结手机就可以做？优惠券高省
建议上班族和全职宝妈把空闲时间拿出来一点做做副业，什么也不耽搁还能多一笔收入！推荐大家一定要试一试！！！只要有手机就可以做，下面小编就为大家推荐用手机就可以做的三类网上兼职工作。一，高省APP高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。万方导师高省邀请码005500，注册送双皇冠会员，送万元推广大礼包，教你如
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
每天赚50零花钱的方法，日赚50元左右的5个正规渠道一起高省
每个人都希望拥有一笔自己的零花钱，但是很多人可能没有太多的时间去赚钱，或者没有太多的机会去赚取收入。但是，你可以通过一些简单的方法来赚取每天50元的零花钱。下面分享一些能每天赚50元的方法门路，总有一个适合你！①电商——高省高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。拂晓导师高省邀请码989898，注册送双皇
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
拼多多返现要输入身份证号码安全吗?拼单返现是什么? 优惠券高省
当我们谈到拼多多返现金活动时，很多朋友会担心提供身份证信息的安全性以及返现金额的真实性。今天，我就来为大家揭开这些疑虑的面纱，为大家提供一个清晰的答案。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

Heritrix的使用入门

10.3 扩展和定制Heritrix

10.3.1 向Heritrix中添加自己的Extractor

10.3.2 定制Queue-assignment-policy两个问题

10.3.3 定制Queue-assignment-policy继承QueueAssignmentPolicy类

10.3.4 扩展FrontierScheduler来抓取特定的内容

10.3.5 在Prefetcher中取消robots.txt的限制

你可能感兴趣的:(算法,正则表达式,搜索引擎,网络协议,百度)