VLTIC

利用 Heritrix 构建特定站点爬虫

简介： Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行，最后以抓取北京林业大学网站为例，介绍如何对其进行扩展，实现只抓取特定网站的页面。

<!--

-->

标记本文！

发布日期： 2010 年 11 月 29 日
级别： 初级
访问情况： 18332 次浏览
评论：

本文由浅入深，详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展，介绍如何实现只抓取特定网站的页面。

通过本文，读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行，能够从零开始构建特定站点的专有爬虫，从而为网站增加全文检索服务。

背景

随着网站内容的增加，为其添加搜索功能是一个常见的需求，搜索引擎也已成为互联网最重要的应用之一。你是否觉得普通的数据库检索已经不能满足你的查询需求了呢？是否希望花最小的代价为你的网站建立一个像 Google、百度那样的全文搜索引擎？是否希望创建自己专有的搜索引擎而不是想尽办法 SEO（Search Engine Optimization，搜索引擎优化）来等着 Google、百度收录你的网站？借助于开源工具的力量，你将很容易实现上述目标。

搜索引擎的实现过程，可以看作三步：1. 从互联网上抓取网页 2. 对网页进行处理，建立索引数据库 3. 进行查询。因此无论什么样的搜索引擎，都必须要有一个设计良好的爬虫来支持。Heritrix 是 SourceForge 上基于 Java 的开源爬虫，它可以通过 Web 用户界面来启动、设置爬行参数并监控爬行，同时开发者可以随意地扩展它的各个组件，来实现自己的抓取逻辑，因其方便的可扩展性而深受广大搜索引擎爱好者的喜爱。

虽然 Heritrix 功能强大，但其配置复杂，而且官方只在 Linux 系统上测试通过，用户难以上手。本文由浅入深，详细介绍 Heritrix 在 windows 下 Eclipse 中的配置运行，并对其进行简单扩展，使其只针对某一特定网站进行抓取，为构建相应站点的全文搜索引擎打好基础。

回页首

Heritrix 下载

目前 Heritrix 的最新版本是 1.14.4（2010-5-10 发布），您可以从 SourceForge（http://sourceforge.net/projects/archive-crawler/files/）上下载。每个版本都有四个压缩包，两个 .tar.gz 包用于 Linux 下，.zip 用于 windows 下。其中 heritrix-1.14.4.zip 是源代码经过编译打包后的文件，而 heritrix-1.14.4-src.zip 中包含原始的源代码，方便进行二次开发。本文需要用到 heritrix-1.14.4-src.zip，将其下载并解压至 heritrix-1.14.4-src 文件夹。

回页首

在 Eclipse 中的配置

首先在 Eclipse 中新建 Java 工程 MyHeritrix。然后利用下载的源代码包根据以下步骤来配置这个工程。

1. 导入类库

Heritrix 所用到的工具类库都在 heritrix-1.14.4-src\lib 目录下，需要将其导入 MyHeritrix 工程。

1）将 heritrix-1.14.4-src 下的 lib 文件夹拷贝到 MyHeritrix 项目根目录；

2）在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”，然后选择 Library 选项卡，单击“Add JARs …”，如图 1 所示。

图 1. 导入类库 - 导入前

3）在弹出的“JAR Selection”对话框中选择 MyHeritrix 工程 lib 文件夹下所有的 jar 文件，然后点击 OK 按钮。如图 2 所示。

图 2. 选择类库

设置完成后如图 3 所示：

图 3. 导入类库 - 导入后

2. 拷贝源代码

1）将 heritrix-1.14.4-src\src\java 下的 com、org 和 st 三个文件夹拷贝进 MyHeritrix 工程的 src 下。这三个文件夹包含了运行 Heritrix 所必须的核心源代码；

2）将 heritrix-1.14.4-src\src\resources\org\archive\util 下的文件 tlds-alpha-by-domain.txt 拷贝到 MyHeritrix\src\org\archive\util 中。该文件是一个顶级域名列表，在 Heritrix 启动时会被读取；

3）将 heritrix-1.14.4-src\src 下 conf 文件夹拷贝至 Heritrix 工程根目录。它包含了 Heritrix 运行所需的配置文件；

4）将 heritrix-1.14.4-src\src 中的 webapps 文件夹拷贝至 Heritrix 工程根目录。该文件夹是用来提供 servlet 引擎的，包含了 Heritrix 的 web UI 文件。需要注意的是它不包含帮助文档，如果想使用帮助，可以将 heritrix-1.14.4.zip\docs 中的 articles 文件夹拷贝到 MyHeritrix\webapps\admin\docs（需新建 docs 文件夹）下。或直接用 heritrix-1.14.4.zip 的 webapps 文件夹替换 heritrix-1.14.4-src\src 中的 webapps 文件夹，缺点是这个是打包好的 .war 文件，无法修改源代码。

拷贝完毕后的 MyHeritrix 工程目录层次如图 4 所示。这里运行 Heritrix 所需的源代码等已经准备完备，下面需要修改配置文件并添加运行参数。

图 4. MyHeritrix 工程的目录层次

3. 修改配置文件

conf 文件夹是用来提供配置文件的，里面包含了一个很重要的文件：heritrix.properties。heritrix.properties 中配置了大量与 Heritrix 运行息息相关的参数，这些参数的配置决定了 Heritrix 运行时的一些默认工具类、Web UI 的启动参数，以及 Heritrix 的日志格式等。当第一次运行 Heritrix 时，只需要修改该文件，为其加入 Web UI 的用户名和密码。如图 5 所示，设置 heritrix.cmdline.admin = admin:admin，“admin:admin”分别为用户名和密码。然后设置版本参数为 1.14.4。

图 5. 设置登陆用户名和密码

4. 配置运行文件

在 MyHeritrix 工程上右键单击选择“Run AsRun Configurations”，确保 Main 选项卡中的 Project 和 Main class 选项内容正确，如图 6 所示。其中的 Name 参数可以设置为任何方便识别的名字。

图 6. 配置运行文件—设置工程和类

然后在 Classpath 页选择 UserEntries 选项，此时右边的 Advanced 按钮处于激活状态，点击它，在弹出的对话框中选择“Add Folders”，然后选择 MyHeritrix 工程下的 conf 文件夹。如图 7 所示。

图 7. 添加配置文件

至此我们的 MyHeritrix 工程已经可以运行起来了。下面我们来看看如何启动 Heritrix 并设置一个具体的抓取任务。

回页首

创建网页抓取任务

找到 org.archive.crawler 包中的 Heritrix.java 文件，它是 Heritrix 爬虫启动的入口，右键单击选择“Run AsJava Application”，如果配置正确，会在控制台输出如图 8 所示的启动信息。

图 8. 运行成功时控制台输出

在浏览器中输入 http://localhost:8080，会打开如图 9 所示的 Web UI 登录界面。

图 9. Heritrix 登录界面

输入之前设置的用户名 / 密码：admin/admin，进入到 Heritrix 的管理界面，如图 10 所示。因为我们还没有创建抓取任务，所以 Jobs 显示为 0。

图 10. Heritrix 控制台

Heritrix 使用 Web 用户界面来启动、设置爬行参数并监控爬行，简单直观，易于管理。下面我们以北京林业大学首页 (http://www.bjfu.edu.cn/) 为种子站点来创建一个抓取实例。

在 Jobs 页面创建一个新的抓取任务，如图 11 所示，可以创建四种任务类型。

图 11. 创建抓取任务

Based on existing job：以一个已经有的抓取任务为模板生成新的抓取任务。
Based on a recovery：在以前的某个任务中，可能设置过一些状态点，新的任务将从这个设置的状态点开始。

Based on a profile：专门为不同的任务设置了一些模板，新建的任务将按照模板来生成。

With defaults：这个最简单，表示按默认的配置来生成一个任务。

这里我们选择“With defaults”，然后输入任务相关信息，如图 12 所示。

图 12. 创建抓取任务“BJFU”

注意图 11 中下方的按钮，通过这些按钮可以对抓取工作进行详细的设置，这里我们只做一些必须的设置。

首先点击“Modules”按钮，在相应的页面为此次任务设置各个处理模块，一共有七项可配置的内容，这里我们只设置 Crawl Scope 和 Writers 两项，下面简要介绍各项的意义。

1）Select Crawl Scope：Crawl Scope 用于配置当前应该在什么范围内抓取网页链接。例如选择 BroadScope 则表示当前的抓取范围不受限制，选择 HostScope 则表示抓取的范围在当前的 Host 范围内。在这里我们选择 org.archive.crawler.scope.BroadScope，并单击右边的 Change 按钮保存设置状态。

2）Select URI Frontier：Frontier 是一个 URL 的处理器，它决定下一个被处理的 URL 是什么。同时，它还会将经由处理器链解析出来的 URL 加入到等待处理的队列中去。这里我们使用默认值。

3）Select Pre Processors：这个队列的处理器是用来对抓取时的一些先决条件进行判断。比如判断 robot.txt 信息等，它是整个处理器链的入口。这里我们使用默认值。

4）Select Fetchers：这个参数用于解析网络传输协议，比如解析 DNS、HTTP 或 FTP 等。这里我们使用默认值。

5）Select Extractors：主要是用于解析当前服务器返回的内容，取出页面中的 URL，等待下次继续抓取。这里我们使用默认值。

6）Select Writers：它主要用于设定将所抓取到的信息以何种形式写入磁盘。一种是采用压缩的方式（Arc），还有一种是镜像方式（Mirror）。这里我们选择简单直观的镜像方式：org.archive.crawler.writer.MirrorWriterProcessor。

7）Select Post Processors：这个参数主要用于抓取解析过程结束后的扫尾工作，比如将 Extrator 解析出来的 URL 有条件地加入到待处理的队列中去。这里我们使用默认值。

设置完毕后的效果如图 13：

图 13. 设置 Modules

设置完“Modules”后，点击“Settings”按钮，这里只需要设置 user-agent 和 from，其中：

“@VERSION@”字符串需要被替换成 Heritrix 的版本信息。
“PROJECT_URL_HERE”可以被替换成任何一个完整的 URL 地址。
“from”属性中不需要设置真实的 E-mail 地址，只要是格式正确的邮件地址就可以了。

对于各项参数的解释，可以点击参数前的问号查看。本次任务设置如图 14 所示。

图 14. 设置 Settings

完成上述设置后点击“Submit job”链接，然后回到 console 控制台，可以看到我们刚刚创建的任务处于 pending 状态，如图 15 所示。

图 15. 启动任务

点击“Start”启动任务，刷新一下即可看到抓取进度以及相关参数。同时可以暂停或终止抓取过程，如图 16 所示。需要注意的是，进度条的百分比数量并不是准确的，这个百分比是实际上已经处理的链接数和总共分析出的链接数的比值。随着抓取工作不断进行，这个百分比的数字也在不断变化。

图 16. 开始抓取

同时，在 MyHeritrix 工程目录下自动生成“jobs”文件夹，包含本次抓取任务。抓取下来网页以镜像方式存放，也就是将 URL 地址按“/”进行切分，进而按切分出来的层次存储。如图 17 所示。

图 17. 抓取到的网页

从图 17 也可以看出，因为我们选择了 BroadScope 的抓取范围，爬虫会抓取所有遇到的 URL，这样会造成 URL 队列无限制膨胀，无法终止，只能强行终止任务。尽管 Heritrix 也提供了一些抓取范围控制的类，但是根据实际测试经验，如果想要完全实现自己的抓取逻辑，仅仅靠 Heritrix 提供的抓取控制是不够的，只能修改扩展源代码。

下面本文以实现抓取北京林业大学（www.bjfu.edu.cn）下相关页面为例说明如何扩展 Heritrix 实现自己的抓取逻辑。

回页首

扩展 Heritrix

我们先来分析一下 Heritrix 的总体结构和 URI 的处理链。

Heritrix 的总体结构

Heritrix 采用了模块化的设计，用户可以在运行时选择要用的模块。它由核心类（core classes）和插件模块（pluggable modules）构成。核心类可以配置，但不能被覆盖，插件模块可以由第三方模块取代。所以我们就可以用实现了特定抓取逻辑的第三方模块来取代默认的插件模块，从而满足自己的抓取需要。

Heritrix 的整体结构如图 18 所示。其中 CrawlController（下载控制器）整个下载过程的总控制者，整个抓取工作的起点，决定整个抓取任务的开始和结束。每个 URI 都有一个独立的线程，它从边界控制器（Frontier）获取新的 URI，然后传递给 Processor chains（处理链）经过一系列 Processor（处理器）处理。

图 18. Heritrix 整体结构

URI 处理流程

处理链由多个处理器组成，共同完成对 URI 的处理，如图 19 所示。

图 19. URI 处理链

1）Pre-fetch processing chain( 预处理链 )，用来判断抓取时的一些先决条件，如 robot 协议、DNS 等。

2）Fetch processing chain（抓取处理链），解析网络传输协议，从远程服务器获取数据。

3）Extractor processing chain（抽取处理链），从网页中抽取新的 URL。

4）Write/index processing chain（写处理链），负责把数据写入本地磁盘。

5）Post-processing chain（后置处理链），在整个抓取解析过程结束后，进行一些扫尾工作，比如将前面 Extractor 解析出来的 URL 有条件的加入到待处理队列中去。这里我们只需要控制加入到待处理队列中的 URL，就可以控制抓取的范围。

扩展 FrontierScheduler 来抓取特定网站内容

FrontierScheduler 是 org.archive.crawler.postprocessor 包中的一个类，它的作用是将在 Extractor 中所分析得出的链接加入到 Frontier 中，以待继续处理。在该类的 innerProcess(CrawlURI) 函数中，首先检查当前链接队列中是否有一些属于高优先级的链接。如果有，则立刻转走进行处理；如果没有，则对所有的链接进行遍历，然后调用 Frontier 中的 schedule() 方法加入队列进行处理。其代码如图 20 所示。

图 20. FrontierScheduler 类中的 innerProcess() 和 schedule() 函数

从上面的代码可以看出 innerProcess() 函数并未直接调用 Frontier 的 schedule() 方法，而是调用自己内部的 schedule() 方法，进而在这个方法中再调用 Frontier 的 schedule() 方法。而 FrontierScheduler 的 schedule() 方法实际上直接将当前的候选链接不加任何判断地直接加入到抓取队列当中了。这种方式为 FrontierScheduler 的扩展留出了很好的接口。

这里我们需要构造一个 FrontierScheduler 的派生类 FrontierSchedulerForBjfu，这个类重载了 schedule(CandidateURI caUri) 这个方法，限制抓取的 URI 必须包含“bjfu”，以保证抓取的链接都是北林内部的地址。派生类 FrontierSchedulerForBjfu 具体代码如图 21 所示。

图 21. 派生类 FrontierSchedulerForBjfu

然后，在 modules 文件夹中的 Processor.options 中添加一行“org.archive.crawler.postprocessor.FrontierSchedulerForBjfu|FrontierSchedulerForBjfu”，这样在爬虫的 WebUI 中就可以选择我们扩展的 org.archive.crawler.postprocessor.FrontierSchedulerForBjfu 选项。如图 22 所示。

图 22. 用 FrontierSchedulerForBjfu 代替 FrontierScheduler

最终抓取的页面如图 23 所示，全部都是 http://www.bjfu.edu.cn下的页面。是不是很简单呢？当然，如果只是想实现这个抓取目标，不用修改源代码，通过在 Web UI 中设置抓取规则也可以满足要求。本文只是以此为例说明 Heritrix 如何扩展 Heritrix。

图 23. 扩展后的抓取效果

回页首

常见问题

1. Access restriction 错误

错误信息：

Access restriction: The type FileURLConnection is not accessible due to restriction on required library C:\Program Files\Java\jdk1.6.0_20\jre\lib\rt.jar，如图 24 所示。

图 24. Access restriction 错误

解决方案：

这是 JRE 的访问限制导致报错，在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”，然后选择 Library 选项卡，将“JRE System Library”删除然后重新导入一下即可修复。或者选择“WindowsPreferencesJavaCompilerErrors/Warnings”找到“Deprecated and restricted API”下的“Forbidden reference (access rules)”，将默认设置“Error”改为“Warning”或“Ignore”。

2. NullPointerException 的错误

错误信息如图 25 所示：

图 25. NullPointerException 错误

解决方案：

这个错误的原因是缺少了“tlds-alpha-by-domain.txt”文件，在 heritrix-1.14.4-src\src\resources\org\archive\util 下可以找到该文件，将其拷贝到 MyHeritrix\src\org\archive\util 中即可。

3. Modules 界面无法改变选择项

错误信息如图 26 所示。

图 26. Modules 界面无法改变选择项

解决方案：

这是因为没有添加运行时所需的配置文件，参照本文“4. 配置运行方式”为 Classpath 添加参数即可。

回页首

注意事项

Heritrix 属于多线程下载爬虫，在公司内网使用有抓取限制。

回页首

总结

在搜索引擎的开发过程中，使用一个优秀的爬虫来获得所需要的网页信息是第一步，也是整个系统成功的关键。Heritrix 是一个功能强大而且高效的爬虫，具有良好的可扩展性。本文介绍了它在 windows 下 Eclipse 中的配置运行以及扩展，使您可以以最快的速度上手使用 Heritrix，享受您的爬虫之旅。

参考资料

学习

查看 Heritrix 网站，学习更多关于 Heritrix 的知识。
从 SourceForge 上下载 Heritrix1.14.4。
查看文章“使用 HttpClient 和 HtmlParser 实现简易爬虫”，学习如何利用开源工具自己写爬虫。
下载 Eclipse IDE。
访问 developerWorks Open source 专区获得丰富的 how-to 信息、工具和项目更新以及最受欢迎的文章和教程，帮助您用开放源码技术进行开发，并将它们与 IBM 产品结合使用。
随时关注 developerWorks 技术活动和网络广播。

讨论

欢迎加入 My developerWorks 中文社区。

【面试题】Node.js高频面试题城仕 node.js 面试题
简述Node.js基础概念？Node.js是一个基于ChromeV8引擎的JavaScript运行环境。它使得JavaScript可以在服务器端运行，从而进行网络编程，如构建Web服务器、处理网络请求等。Node.js采用事件驱动、非阻塞I/O模型，使其轻量且高效，尤其适用于数据密集型实时应用。**主要特点**:1.**异步I/O**：Node.js几乎所有的API都是异步的，如读写文件、网络请求
【Kafka】Kafka高性能解读解决方案工程师 kafka 分布式
Kafka的高性能源于其分布式架构设计、高效数据存储和优化算法。以下是Kafka高性能的核心原理及其实现细节：1.分布式架构设计1.1分区（Partitioning）并行处理：将Topic划分为多个Partition，每个Partition独立存储和处理数据，支持水平扩展。负载均衡：Producer和Consumer可以并行读写不同Partition，充分利用集群资源。1.2副本机制（Replic
计算机专业知识【揭秘编程世界：解释型语言与编译型语言大比拼】一勺菠萝丶计算机专业知识 python 开发语言
在编程的奇妙世界里，代码是程序员与计算机沟通的桥梁。但计算机只能理解机器语言，这就需要借助特定的工具将我们编写的高级语言代码转化为计算机能执行的指令。解释型语言和编译型语言就是完成这一转化的两种不同途径。下面，让我们深入探究它们的奥秘。什么是解释型语言解释型语言就像一位实时翻译官，在程序运行时逐行读取源代码，对每一行代码进行分析和翻译，转化为计算机能理解的机器指令，然后立即执行这些指令。整个过程是
AI DMP 数据基建：如何利用数据提升营销效率 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AIDMP数据基建：如何利用数据提升营销效率关键词：AI、DMP、数据基建、营销效率、数据驱动、用户画像、精准投放、数据安全摘要：本文深入探讨了AI驱动的DMP（数据管理平台）在现代营销中的关键作用。文章详细阐述了AIDMP数据基建的核心概念、技术原理和实施步骤，包括数据收集、整合、分析和应用等方面。通过结合人工智能技术，DMP能够更精准地构建用户画像，优化营销策略，提高广告投放效率。文章还探讨了
【面试系列】TypeScript高频面试题及详细解答野老杂谈全网最全IT公司面试宝典面试 typescript 编程语言前端
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录常见的初级面试题1.什么是TypeSc
优化 Flink 消费 Kafka 数据的速度：实战指南 Ray.1998 大数据 flink kafka 大数据
在使用Flink消费Kafka数据时，你可能会遇到消费速率较慢的问题。本文将从Kafka并行消费、批量拉取、Checkpoint频率、ConsumerPoll速率以及Flink任务Slot资源等多个方面，详细解析如何优化Flink消费Kafka的速度。1.增加Kafka并行消费（提高并行度）问题Flink默认的Kafka消费者并行度可能较低，导致消费速度无法充分利用Kafka的吞吐能力。✅解决方案
【Python数据分析五十个小案例】使用自然语言处理（NLP）技术分析 Twitter 情感小馒头学python python 数据分析自然语言处理
博客主页：小馒头学python本文专栏:Python爬虫五十个小案例专栏简介：分享五十个Python爬虫小案例项目简介什么是情感分析情感分析（SentimentAnalysis）是文本分析的一部分，旨在识别文本中传递的情感信息，例如正面、负面或中立情绪。为什么选择Twitter数据数据丰富：Twitter上每天产生数百万条推文，内容多样。即时性：适合实时分析。公开可用：提供API可轻松访问。NLP
介绍 TensorFlow 的基本概念和使用场景。 AC使者 github sqlite 开发语言自然语言处理
TensorFlow是一个由Google开发的开源机器学习框架，旨在让开发者能够构建和训练各种深度学习模型。以下是TensorFlow的基本概念和使用场景：张量（Tensor）：在TensorFlow中，数据以张量的形式表示，可以理解为多维数组。张量是TensorFlow的基本数据单位，常用于存储训练数据和模型的参数。计算图（ComputationalGraph）：TensorFlow使用计算图来
强烈推荐的3款低代码爬虫，程序员必备朱卫军 AI 低代码爬虫网络爬虫
网络爬虫是一种常见的数据采集技术，你可以从网页、APP上抓取任何想要的公开数据，当然需要在合法前提下。爬虫使用场景也很多，比如：搜索引擎机器人爬行网站，分析其内容，然后对其进行排名，比如百度、谷歌价格比较网站，部署机器人自动获取联盟卖家网站上的价格和产品描述，比如什么值得买市场研究公司，使用爬虫从论坛和社交媒体（例如，进行情感分析）提取数据。与屏幕抓取不同，屏幕抓取只复制屏幕上显示的像素，网络爬虫
【网络安全】从零开始的CTF生活 Hacker_Nightrain web安全生活安全
1、CTF是什么？CTF（CaptureTheFlag，夺旗赛）起源于1996年DEFCON全球大会，是网络安全爱好者之间的竞技游戏。2、比赛怎么打？1、解题模式：与ACM编程竞赛、信息学奥赛类似，以解决网络安全技术挑战题目的分值和时间来排名。题目主要包含逆向、漏洞挖掘与利用、Web渗透、密码、取证、隐写、安全编程等类别2、攻防模式（Attack-Defense）：参赛队伍在网络空间互相进行攻击和
SprinBoot整合HTTP API:从零开始的实战指南 C_V_Better java java spring boot 后端开发语言 spring http
在现代Web开发中，HTTPAPI是前后端交互的核心。SpringBoot作为Java生态中备受欢迎的框架，提供了简洁而强大的方式来构建和整合HTTPAPI。本文将带你从零开始，通过具体代码示例，展示如何在SpringBoot中整合HTTPAPI，实现高效、稳定的前后端通信。一、为什么选择SpringBoot整合HTTPAPI？SpringBoot提供了开箱即用的特性，简化了传统Spring应用的
将Neo4j用于Python学习的创新方法黑金IT 知识图谱 neo4j python 学习
Neo4j作为一款强大的图数据库，其独特的关系性特点能够为Python学习带来全新的视角和深度理解。通过将Neo4j与Python学习相结合，可以帮助学生更直观、更深入地掌握Python编程的各个方面。以下是具体的建议和方法：1.利用Neo4j可视化Python数据结构通过Neo4j把Python中的数据结构，如列表、字典、集合等，以可视化的方式呈现。把数据结构中的元素当作节点，元素之间的关系作为
Node.js 中 child_process 模块教程神秘代码行者 Node.js node.js
Node.js中child_process模块教程简介Node.js的child_process模块提供了在Node.js应用程序中创建和管理子进程的能力。这个功能对于执行系统命令、运行外部程序、以及充分利用多核CPU资源都非常有用。主要方法1.spawn()spawn()方法用于启动一个新进程来执行命令。它是异步的，适合处理大量数据的场景。const{spawn}=require('child_
关于酒店旅游信息的数据采集API接口返回||包含参数说明电商数据girl 电商项目API接口测试跨境电商API接口酒店信息相关API接口旅游 java 开发语言大数据数据库 json
相关网站站点xiechengAPI接入说明携程获取酒店详情原数据API返回值说明item_get_app-获取酒店详情原数据xiecheng.item_get_app公共参数名称类型必须描述keyString是调用key（必须以GET方式拼接在URL中）secretString是调用密钥api_nameString是API接口名称（包括在请求地址中）[item_search,item_get,it
FreeSwitch的应用类模块狂爱代码的码农 VOIP那些事运维
FreeSWITCH应用类模块（Applications）完整表格模块名称功能描述mod_callcenter提供呼叫中心功能，支持队列、座席管理、监控等。mod_conference提供多方会议功能，支持音频、视频会议。mod_blacklist提供黑名单功能，阻止特定号码的呼叫。mod_db提供数据库操作功能，支持SQLite、PostgreSQL等数据库。mod_curl提供HTTP请求功能
OceanBase 初探学习历程之——安装部署羽书飞影 oceanbase 学习
一、介绍OceanBase数据库是一个原生的分布式关系数据库，它是完全由阿里巴巴和蚂蚁集团自主研发的项目。OceanBase数据库构建在通用服务器集群上，基于Paxos协议和分布式架构，提供金融级高可用和线性伸缩能力，不依赖特定硬件架构，具备高可用、线性扩展、高性能、低成本等核心技术优势。OceanBase数据库具有如下特点：高可用单服务器故障能够自愈，支持跨城多机房容灾，数据零丢失，可满足金融行
开源数据平台构建：从0到1搭建企业级数据平台系统 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介数据平台作为业务数据的重要基础设施，其提供的数据服务和分析能力已成为公司各部门协同工作、高效沟通、提升工作效率的关键。然而，由于不同行业领域需求的差异性、不同数据规模和复杂度等多种因素的影响，制造出具有高质量、低延迟、易扩展、可靠、安全、易用的数据平台也面临着巨大的挑战。近年来，随着云计算、容器技术和微服务架构的普及，基于开源解决方案构建数据平台这一需求越来越受
资源管理详解-ChatGPT4o作答部分分式笔记
资源整合是指将不同类型的资源（如人力、财力、物力、信息、技术等）有效地组织、配置、协调和利用，以实现最大化的效益和目标。这一过程在各个领域中都非常重要，尤其在企业管理、项目管理、战略规划和技术创新等领域。资源整合不仅仅是资源的收集和调配，更重要的是要在合适的时机将它们应用于最合适的地方，以产生协同效应。1.资源整合的定义资源整合通常指通过一定的管理机制和技术手段，将不同领域、不同部门、不同职能的资
C语言之宏定义使用嵌入式小武编程语言问题记录 c语言
C语言之宏定义使用前言C语言中宏定义使用广泛，例如使用宏替代“魔鬼数字”、利用宏代替函数做简单的处理提高效率、实现条件定义等等。一、使用宏定义替代“魔鬼数字”不论是自己写代码还是看他人代码，魔鬼数字是比较让人头大的写法，魔鬼数字让阅读代码的人难以理解，同时自己写的代码常时间不看遇到魔鬼数字也会一脸懵逼，想着是哪个傻叉写的，一看作者是自己。。。。。。使用宏代替魔鬼数字的方法如下：//已控制灯光为例，
低代码开发能与视频对话的AI聊天应用（含前后端代码）佛州小李哥 AWS技术人工智能亚马逊云科技 aws 科技 ai 云计算语言模型
在本篇文章中，我会构建一个基于生成式AI的应用，让大家能利用生成式AI的能力和视频交互，并且几乎不需要编写任何代码。在本篇文章中，我将展示如何构建一个简单的AI应用，它可以总结冗长的YouTube视频并使其可交互，同样的方式大家可以应用到B站视频等。海外的开发者经常观看YouTube视频，目的包括学习、娱乐和工作。因为是从事IT行业，开发者有时候没有时间看完整个视频，但又非常想了解视频中提到的关键
你知道吗？零工经济时代已经来临！汇匠源 java python 小程序
零工经济就是指通过短期合同或自由职业的形式，为企业或个人提供服务的经济模式。与传统全职工作不同，零工经济更加强调灵活性、自主性和技能变现。随着互联网技术的飞速发展和人们工作观念的转变，越来越多的人选择成为自由职业者，利用自己的技能和时间，通过平台接单赚钱。零工经济给我们带来的方便就是有更灵活更自由的工作方式，选择更多，可以根据自己的兴趣进行选择零工，可以通过平台接触到更多的客户和项目，不断提升自己
[网络安全]XSS之Cookie外带攻击姿势详析 Hacker_LaoYi web安全 xss 安全
概念XSS的Cookie外带攻击就是一种针对Web应用程序中的XSS（跨站脚本攻击）漏洞进行的攻击，攻击者通过在XSS攻击中注入恶意脚本，从而窃取用户的Cookie信息。攻击者通常会利用已经存在的XSS漏洞，在受害者的浏览器上注入恶意代码，并将受害者的Cookie数据上传到攻击者控制的服务器上，然后攻击者就可以使用该Cookie来冒充受害者，执行一些恶意操作，例如盗取用户的账户信息、发起钓鱼攻击等
C语言枚举类型详解 CodeSpark 编程
枚举类型是C语言中一种特殊的数据类型，它允许我们定义一组具有相互关联的常量。枚举类型能够提高代码的可读性和可维护性，使得程序员可以使用更加直观和有意义的符号来表示特定的取值范围。在本文中，我们将详细介绍C语言中的枚举类型以及如何使用它。枚举类型的定义在C语言中，使用关键字enum来定义枚举类型。下面是定义枚举类型的一般语法：enum枚举类型名{枚举常量1,枚举常量2,...};在上面的语法中，枚举
企业内部知识库：安全协作打造企业智慧运营基石 Baklib-企业帮助文档其他
内容概要作为企业智慧运营的核心载体，企业内部知识库通过结构化的信息聚合与动态化的知识流动，为组织提供了从数据沉淀到价值转化的系统性框架。其底层架构以权限管理为核心，依托数据加密技术构建多层级访问控制机制，确保敏感信息的安全协作平台属性。例如，通过用户权限分级（如只读、编辑、管理员）与私有化部署选项，企业可在保障数据主权的同时，实现跨部门、跨角色的精细化操作管控。在知识资产激活层面，知识库工具不仅支
计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测 qq_80213251 java javaweb 大数据课程设计 python
开发技术SparkHadoopPython爬虫Vue.jsSpringBoot机器学习/深度学习人工智能创新点Spark大屏可视化爬虫预测算法功能1、登录注册界面，用户登录注册，修改信息2、管理员用户：（1）查看用户信息；（2）出行高峰期的10个时间段；（3）地铁限流的10个时间段；（4）地铁限流的前10个站点；（6）可视化大屏实时显示人流量信息。3、普通用户：（1）出行高峰期的10（5）可视化大
深入解析Textual库：打造现代化的终端用户界面（TUI）萧鼎 python基础到进阶教程 ui
深入解析Textual库：打造现代化的终端用户界面（TUI）在终端应用程序的世界里，过去的交互方式通常是简单的命令行输入和文本输出。然而，随着开发者对更高可用性和更友好界面的追求，现代终端用户界面（TUI，TerminalUserInterface）工具逐渐受到关注。Textual便是其中的佼佼者。Textual是一个基于Python的TUI框架，它能够帮助开发者轻松构建美观且交互性强的终端应用程
IDE集成开发环境向画工具 eclipse github git windows svn pycharm ci/cd
IDE集成开发环境，全称“IntegratedDevelopmentEnvironment”介绍定义：IDE是用于提供程序开发环境的应用程序，它集成了代码编写功能、分析功能、编译功能、调试功能等一体化的开发软件服务套。组成部分：IDE通常包括代码编辑器、编译器、调试器和图形用户界面等工具，以及版本控制、构建自动化和代码分析工具等。优势：IDE将程序设计的各个阶段（如编辑、编译、调试等）集成在一个桌
如何评估代理IP服务对AI大模型训练的影响 http
2023年某头部AI公司的内部报告显示，在分布式训练场景下，因代理IP配置不当导致的算力浪费平均达15%。工程师们往往更关注GPU型号或算法优化，却容易忽略网络链路这个隐形变量。本文将以可复现的测试方法，拆解代理IP对训练效果的三大影响维度，手把手教您建立科学的评估体系。一、影响因子的精准拆解代理IP对训练效果的影响主要体现在三个层面：‌1.数据流速波动‌当爬虫节点通过代理IP采集训练数据时，实测
在Linux上创建一个Docker容器并在其中执行Python脚本百锦再@新空间代码工作室包罗万象 linux docker python
在Linux上创建一个Docker容器并在其中执行Python脚本的过程，涉及多个方面的内容，包括安装Docker、编写Dockerfile、构建镜像、运行容器等。1.安装Docker在Linux上使用Docker之前，你需要确保系统已安装Docker。Docker支持的Linux发行版有很多，包括Ubuntu、CentOS、Debian等。以下是以Ubuntu为例的安装步骤。1.1更新系统软件包
时间同步服务器--Linux中 IJ[JJ 服务器运维
时间同步服务器1.时间同步服务时间同步:多主机协作工作时，各个主机的时间同步很重要，时间不一致会造成很多重要应用的故障，如:加密协议，日志，集群等，利用NTP(NetworkTimeProtocol)协议使网络中的各个计算机时间达到同步。目前NTP协议属于运维基础架构中必备的基本服务之一。时间同步实现:ntp，chrony。ntp:将系统时钟和世界协调时UTC同步，精度在局域网内可达0.1ms，在
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

利用 Heritrix 构建特定站点爬虫

你可能感兴趣的:(利用 Heritrix 构建特定站点爬虫)