linmaya

[网摘]开发基于 Nutch 的集群式搜索引擎

转载[IBM-developerWorks中国-Open source-文档库 ]

王飞鹏 ( [email protected]), 软件工程师, EMC

李立 ( [email protected]), 研究员, EMC

王美华 ( [email protected]), 软件工程师, EMC

发布日期： 2008 年 10 月 16 日
级别： 中级

******************

本文首先介绍 Nutch 的背景知识，包括 Nutch 架构，爬虫和搜索器。然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中，首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站，目标网站将被部署在域名为 myNutch.com 的服务器上。然后示例说明 Nutch 爬虫如何抓取目标网站内容，产生片断和索引，并将结果存放在集群的2个节点上。最后使用 Nutch 检索器提供的 API 开发应用，为用户提供搜索接口。

简介

Nutch 是一个基于 Java 实现的开源搜索引擎，其内部使用了高性能全文索引引擎工具 Lucene。从 nutch0.8.0开始，Nutch 完全构建在 Hadoop 分布式计算平台之上。Hadoop 除了是一个分布式文件系统外，还实现了 Google 的 GFS 和 MapReduce 算法。因此基于 Hadoop 的 Nutch 搜索引擎可以部署在由成千上万计算机组成的大型集群上。由于商业搜索引擎允许竞价排名，这样导致索引结果并不完全是和站点内容相关的，而 Nutch 搜索结果能够给出一个公平的排序结果，这使得 Nutch 在垂直搜索、档案互联网搜索等领域得到了广泛应用。

前提条件

Rational Application Developer v6.0
Websphere Application Server v6.0
Nutch 0.8.1
SSH Service Package
主节点RHAS3.0
从节点Debian GNU/Linux 3.1

背景知识

Nutch 搜索引擎是一个基于 Java 的开放源代码的搜索引擎。Nutch 搜索引擎处理流程包括抓取流程和搜索流程，如图 1 所示。相应地 Nutch 也分为2部分，抓取器和搜索器。在抓取流程中，抓取器也叫蜘蛛或者机器人，以广度优先搜索（BFS）的方式从企业内部网或者互联网抓取网页。这个过程涉及到对 CrawlDB 和 LinkDB 数据库的操作。然后 Nutch 解析器开始解析诸如 HTML、XML、RSS、PDF等不同格式的文档。最后 Nutch 索引器针对解析结果建立索引并存储到 indexDB 和 SegmentsDB 数据库中，以供搜索器搜索使用。

在搜索流程中，搜索应用使用输入关键词调用 Nutch 搜索接口（Nutch Query Interface）。应用可通过网页上的输入框输入相应关键词。搜索接口解析搜索请求为 Lucene 全文检索引擎可以识别的格式。Nutch 索引器将会调用 Lucene 引擎来响应请求在 indexDB 上展开搜索。最后搜索接口收集从索引器返回的URL、标题、锚和从 SegmentsDB 返回的内容。所有上述内容将被提供给排序算法进行排序。排序完成后，搜索接口将返回命中的搜索结果。由于构建在 Hadoop 分布式文件系统之上， Nutch 对CrawlDB, LinkDB, SegmentsDB 和 IndexDB 数据库的操作都是通过调用 M/R(map/reduce) 函数完成的。这使得 Nutch 具有了集群扩展能力。

图 1 Nutch搜索引擎架构图

开发目标网站 targetWebSite

现在将开发一个供 Nutch 爬虫抓取的目标网站应用。这个应用使用 RAD v6.0（Rational Application Developer）作为集成开发工具开发。应用开发完成后，将被部署在 WAS v6.0（Websphere Application Server）服务器上，本样例中服务器的域名设置是 myNutch.com。读者可以按照下面的步骤来开发该目标网站应用。

创建一个动态 Web 项目。打开 RAD，选择 File > New > Project，然后在向导里选择动态 Web 项目，如图 2 所示。

图 2 创建一个动态 Web 项目
设计网页。在项目里面，选择 File > New > HTML/XHTML，创建 index.html, one.html，two.html 和 three.html 一共4个文件。项目的最终结构组成如图 3 所示。

图 3 项目的最终结构组成
在 WAS v6.0 中运行项目。打开 RAD，选择 project > Run > Run on Server, 部署并在服务器上运行。如图 4 所示。

图 4 在服务器上运行
点击完成按钮。启动浏览器，在地址栏中输入 http://myNutch.com/targetWebApp。如图 5 所示。

图 5 在浏览器中访问

定义搜索引擎

在抓取网站之前，需要定义搜索引擎。在本样例中Nutch被配置为集群方式。集群包括主节点（地址9.181.87.172，操作系统 RHAS3.0）和从节点（地址 9.181.87.176，操作系统 Debian）。如前文介绍，Nutch 的集群能力主要利用了 Hadoop 的分布式计算环境。下面介绍如何定义 Nutch 搜索引擎。

安装 Nutch。首先下载 Nutch 安装包。本示例采用 Nutch0.8.1。解压下载到的 Nutch 0.8.1包到主节点某一工作目录下。本文中的工作目录使用 /workspace 。确认主从节点上都已安装 SSH service package和 JDK1.4 或 JDK 1.5

Nutch 设置。在 Nutch 的工作目录下，用文本编辑器打开 conf 目录下的文件 Nutch-site.xml，输入 http.agent.name，http.agent.description，http.agent.url 和 http.agent.email 属性集。注意 http.agent.ur 属性需要填写部署目标网站的域名地址 myNutch.com。清单 1 列出了修改完毕后的 Nutch-site.xml。

清单 1 Nutch-site.xml

<property>
  <name>http.agent.name</name>
  <value>Nutch-hadoop</value>
  <description>HTTP 'User-Agent' request header. MUST NOT be empty -
  please set this to a single word uniquely related to your organization.
  </description>
</property>
<property>
  <name>http.agent.description</name>
  <value>bydenver</value>
  <description>Further description of our bot- this text is used in
  the User-Agent header.  It appears in parenthesis after the agent name.
  </description>
</property>
<property>
  <name>http.agent.url</name>
  <value>myNutch.com</value>
  <description>A URL to advertise in the User-Agent header.  This will
   appear in parenthesis after the agent name. Custom dictates that this
   should be a URL of a page explaining the purpose and behavior of this
   crawler.
  </description>
</property>
<property>
  <name>http.agent.email</name>
  <value>[email protected]</value>
  <description>An email address to advertise in the HTTP 'From' request
   header and User-Agent header. A good practice is to mangle this
   address (e.g. 'info at example dot com') to avoid spamming.
  </description>
</property>

Hadoop 主节点设置。用文本编辑器打开 conf 目录下的文件 hadoop-site.xml，插入清单 2 所列出的属性集。需要注意的是属性 fs.default.name 和 mapred.job.tracker 设置为主节点的IP地址（在本例中为9.181.87.172）。

清单 2 hadoop-site.xml文件

<property>
  <name>fs.default.name</name>
  <value>9.181.87.172:9000</value>
  <description>
    The name of the default file system. </description>
</property>
<property>
  <name>mapred.job.tracker</name>
  <value>9.181.87.172:9001</value>
  <description>
    The host and port that the MapReduce job tracker runs at.
  </description>
</property>
<property> 
  <name>mapred.map.tasks</name>
  <value>2</value>
  <description>
    define mapred.map tasks to be number of slave hosts
  </description> 
</property>
<property> 
  <name>mapred.reduce.tasks</name>
  <value>2</value>
  <description>
    define mapred.reduce tasks to be number of slave hosts
  </description> 
</property>
<property>
  <name>dfs.name.dir</name>
  <value>/workspace/filesystem/name</value>
</property>
<property>
  <name>dfs.data.dir</name>
  <value>/workspace/filesystem/data</value>
</property>
<property>
  <name>mapred.system.dir</name>
  <value>/workspace/filesystem/mapreduce/system</value>
</property>
<property>
  <name>mapred.local.dir</name>
  <value>/workspace/filesystem/mapreduce/local</value>
</property>
<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>

Hadoop 从节点设置。使用文本编辑器打开 conf 目录下的 slaves 文件，输入从节点的 IP 地址。如清单 3 所示。

清单 3 slaves 文件
9.181.87.176
抓取器设置。首先在 Nutch 工作目录下创建目录 urls，再新建文件 urllist.txt。编辑 urllist.txt文件，输入 http://myNutch.com/targetWebApp。清单 4 列出了所使用的命令。最后需要编辑 conf 目录下的 crawl-urlfilter.txt 文件，输入 +^http://([a-z0-9]*\.)*myNutch.com/，如清单 5 所示。

清单 4 创建 urllist 文件
cd /workspace/Nutch-0.8.1 mkdir urls echo http://myNutch.com/targetWebApp > urls/urllist.txt conf/crawl-urlfilter.txt
清单 5 编辑crawl-urlfilter.txt 文件
+^http://([a-z0-9]*\.)*myNutch.com/

抓取器抓取并分析

在使用 Nutch 抓取之前，首先需要启动 Hadoop 服务。清单 6 列出了启动 Hadoop 服务所采用的命令。随后使用清单 7 中的命令从 myNutch.com 抓取网页并解析，其中参数 “depth 3” 表示从网页根路径算起的链接深度；参数 “topN 10” 表示抓取器在每层需要获取的最大页面数目。开始抓取后，抓取器将在当前目录下创建新目录 crawl 作为工作目录。

清单 6 启动 Hadoop 服务

bin/hadoop dfs -put urls urls
bin/hadoop dfs namenode �Cformat

清单 7 抓取命令

bin/Nutch crawl urls -dir ./crawl -depth 3 -topN 10

对目标网站 targetWebApp 完成抓取后，在 crawl 工作目录下产生了五个子目录： crawldb，linkdb，segments，indexes 和 index (见图 6)。数据库 crawldb 中包含页面的数目等；linkdb 包含页面在数据库中的链接，这是抓取器真正抓取网站时由页面的链接数目决定；Segments 数据库按照时间戳分为三个片断，每个片断的产生都经历了 generate/fetch/update 三个过程；Indexes 数据库包含了在 generate/fetch/update 过程中产生的 Lucene 索引；Index 数据库包含了经合并处理后的 Lucene 索引。

图 6 抓取器抓取结果

读者也可以使用工具 Luke 去查看 Lucene 索引。借助 Luke，可以查看索引内容以及对索引查询。图 7 列出了 index 目录下的合并后的索引。

图 7 使用 Luke 查看 Lucene 索引
使用Luke查看Lucene索引

开发搜索应用

完成抓取后，现在将开发一个基于 Nutch 搜索 API 的应用 NutchApp，提供给用户作为搜索的接口。NutchApp 使用 Java 语言编写，其实现首先创建 NutchConfiguration 对象，然后创建 NutchBean。这个 NutchBean 实例将用来处理用户的搜索请求；根据请求参数，创建 query 对象，NutchBean 通过调用 search 方法来处理此 query 对象的请求。最终搜索结果以 Hits 集合。NutchApp 遍历此 Hits 集合并打印结果到标准输出。清单 8 列出了 NutchApp 的示例代码。

清单 8 NutchApp的示例代码

package org.myNutch;
import java.io.IOException;
import java.io.*;
import java.util.*;
import org.apache.hadoop.conf.Configuration;
import org.apache.Nutch.searcher.*;
import org.apache.Nutch.util.*;
public class NutchApp {
  /** For debugging. */
  public static void main(String[] args) throws Exception {
    String usage = "NutchBean query";
    if (args.length == 0) {
      System.err.println(usage);
      System.exit(-1);
    }    
    Configuration conf = NutchConfiguration.create();
    NutchBean bean = new NutchBean(conf);
    Query query = Query.parse(args[0], conf);
    Hits hits = bean.search(query, 10);
    System.out.println("Total hits: " + hits.getTotal());
    int length = (int)Math.min(hits.getTotal(), 10);
    Hit[] show = hits.getHits(0, length);
    HitDetails[] details = bean.getDetails(show);
 Summary[] summaries = bean.getSummary(details, query);
 for ( int i = 0; i <hits.getLength();i++){
      System.out.println(" "+i+" "+ details[i] + "\n" + summaries[i]);
    }
  }
}

接下来我们来运行 NutchApp。首先编译 NutchApp.java 并打包。打包后的文件名为 NutchApp.jar。随后在 Nutch 命令下执行。见清单 9。

清单 9 编译、打包和执行 NutchApp

Javac -cp "Nutch-0.8.1.jar;hadoop-0.4.0-patched.jar" src/org/myNutch/NutchApp.java -d lib
cd lib
jar cvf NutchApp.jar org/myNutch/NutchApp.class
cd ../
bin/Nutch org.myNutch.NutchApp Nutch

下面我们可以验证我们开发的 Nutch 搜索引擎的使用效果。在搜索页面搜索关键字输入“Nutch”，NutchApp 返回的搜索结果如清单 10 所示。其中包括概要和详细内容。

清单 10 NutchApp输出

Total hits: 3
 0 20061104142342/http://myNutch.com/targetWebApp/two.html
 ... 8 release of Nutch is now available. This is ... first release of Nutch
 1 20061104142342/http://myNutch.com/targetWebApp/one.html
 ... 1 release of Nutch is now available. This is ...
 2 20061104142342/http://myNutch.com/targetWebApp/three.html
 ... 2 release of Nutch is now available. This is ...

小结

通过本文的介绍，现在你已经知道如何使用 Nutch 开发集群式的搜索引擎，并使用此搜索引擎对目标网站进行抓取和分析结果，以及如何提供搜索接口来响应用户的搜索请求。事实上，搭建基于 Nutch 的搜索引擎是一个具有很大挑战性的工作，因为 Nutch 本身还在不断的发展之中，另外目标网站的结构复杂度也不尽相同。所以，针对互联网站点文档格式日益复杂的需求，接下来你还需要花一些精力关注 Nutch 高级特性的进展。

参考资料

学习

在 Nutch 官方网站阅读更多有关 Nutch 的在线文档
在 Lucene 官方网站阅读更多有关 Lucene 的在线文档
在 Hadoop 官方网站阅读更多有关 Hadoop 的在线文档

Spring框架在Java企业级应用中的应用分析向哆哆 Java入门到精通 java spring 后端
Java在移动应用开发中的优势与挑战Java作为一门历史悠久且功能强大的编程语言，在移动应用开发中一直占据着重要地位，尤其是在安卓平台的应用开发上，Java是主要的开发语言。随着技术的发展，尤其是Kotlin的崛起，Java在移动应用中的角色发生了一些变化，但它依旧具有许多独特的优势，尤其是在企业级应用和维护现有项目中。本文将从多个角度探讨Java在移动应用开发中的优势与挑战，并提供相关的代码示例
BP 神经网络在考古数据分析中的应用 fanxbl957 人工智能理论与实践神经网络数据分析人工智能
BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。通过丰富的代码示例展示了如何运用BP神经网络进行考古文物的分类鉴定、年代预测以及遗址空间分布分析等任务，涵盖数据预处理、网络构建、模型训练与评估等关键环节。分析了该应用的优势与局限性，并对其在考古数据分
100道计算机网络面试八股文（答案、分析和深入提问）整理守护海洋的猫计算机网络面试职场和发展 python django
1.说一说POST与GET有哪些区别回答在计算机网络中，POST和GET是HTTP协议中两种主要的请求方法，它们各自具有不同的特性和用途。下面是二者的主要区别：1.数据传输方式GET：数据通过URL传递，参数以查询字符串的形式附加在URL后面。示例：http://example.com/api?name=value&age=30POST：数据包含在HTTP请求的主体部分，数据不会显示在URL中。示
【Go语言快速上手】第二部分：Go语言进阶之测试与性能优化卜及中 Golang golang 性能优化 log4j
文章目录前言：测试和性能优化一、编写单元测试和基准测试1.1单元测试1.1.1示例：编写单元测试1.2基准测试1.2.1示例：编写基准测试二、使用pprof进行性能分析2.1启用pprof2.1.1示例：启用pprof2.2使用pprof工具分析性能2.2.1示例：生成CPU性能报告2.2.2示例：生成内存使用报告2.3分析报告三、代码优化技巧3.1减少内存分配3.1.1示例：重用切片3.2避免锁
代理IP助力AI图像处理，开启行业新篇章傻啦嘿哟关于代理IP那些事儿人工智能 tcp/ip 图像处理
目录一、代理IP技术简介二、代理IP在AI图像处理中的应用1.提升数据访问速度2.增强数据处理能力3.突破网络限制三、代理IP在AI图像处理中的实际案例案例一：AI图像生成软件案例二：AI动画创作四、代理IP技术的未来展望五、结语在科技日新月异的今天，AI图像处理技术以其广泛的应用前景和强大的处理能力，正深刻改变着我们的世界。从人脸识别、自动驾驶到医学影像分析，AI图像处理技术无处不在，发挥着不可
CSS 滚动条样式修改（详细） mr_cmx css css3 html
1、滚动条整体部分使用::-webkit-scrollbar示例：.container::-webkit-scrollbar{width:20px;//修改滚动条宽度}2、滚动条中的滑块使用::-webkit-scrollbar-thumb示例：.container::-webkit-scrollbar-thumb{border-radius:8px;box-shadow:inset005pxrg
HarmonyOS应用开发最佳实践 harmonyos
课程简介本课程是【HarmonyOSTechTalk】的第9课。本次交流紧紧围绕HarmonyOS应用开发。重点探讨常见的功耗问题及其最佳实践方案。省电模式是降低能耗的关键策略，通过优化系统资源分配等方式减少电量消耗。深色模式不仅能提升视觉舒适度，还对节能有积极作用。LTPO可变帧率技术则在保障应用流畅性的同时进一步优化功耗。而后台任务的合理开发与管理，决定着应用在后台运行时的资源占用与续航表现。
《数组》学习——移除元素小翔很开心学习
移除元素题目：给你一个数组nums和一个值val，你需要原地移除所有数值等于val的元素，并返回移除后数组的新长度。不要使用额外的数组空间，你必须仅使用O(1)额外空间并原地修改输入数组。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。测试用例：示例1:给定nums=[3,2,2,3],val=3,函数应该返回新的长度2,并且nums中的前两个元素均为2。你不需要考虑数组中超出新长度后
全面解析 Enterprise Architect（EA）活动图的工具集：从元素到关系的详尽指南泡沫o0 C/C++编程世界:探索C/C++的奥妙 c++20 开发语言 c++嵌入式 qt uml arm
目录标题第一章:引言——理解活动图的重要性1.1什么是活动图？1.1.1活动图的组成元素1.1.2活动图的应用场景1.2为什么选择EA作为建模工具？1.2.1EA的强大功能1.2.2EA与其他建模工具的对比第二章:活动图中的核心元素2.1活动类元素2.1.1Activity（活动）示例：2.1.2Action（动作）示例：2.1.3Partition（泳道）示例：2.1.4Send（发送）与Rec
PHP全文检索引擎WindSearch，新增“即用模式”
WindSearch是一个可以跟php项目完美融合的全文检索引擎，它由纯PHP开发，相比ES，WS无内存占用，无需维护，没有任何繁琐的安装配置，同时又拥有强大的索引跟搜索能力，总的来说，ES常用的功能它都有，但WS更轻量，更方便。WindSearch2.0版本新增“即用模式”，简单搜索场景下，导入、搜索等操作，更加简单直接，无需任何配置。即用模式导入、搜索操作的代码示例：导入数据//实例化对象$W
JS宏实例：数据透视工具的制作（三） jackispy JS宏实例 javascript 前端 java
数据透视工具的制作（二）中详细展示了窗体设计思路及想要实现的功能，在本节中，将完成该工具中的核心计算代码，如分组求和、计数、累乘等的实现方式。在这里，我们可以构思两个类：TablePivot：主要用于管理数据矩阵，包括自动识别列数据类型，以及实现数据分组功能。GroupBy：对分组后的数据进行各种统计操作，例如求和、计数、求平均值等。一、TablePivot类1、示例代码classTablePiv
FOKS-TROT: 一个高效、易用的全功能开源知识图谱生成工具柳旖岭
FOKS-TROT:一个高效、易用的全功能开源知识图谱生成工具项目简介FOKS-TROT是一个基于Python的全功能开源知识图谱生成工具，旨在帮助研究人员和开发者快速构建具有丰富信息的知识图谱。该项目由hkx3upper在GitCode上开发并维护。通过FOKS-TROT，您可以轻松地将各种数据源（如文本文件、数据库、API）转换为结构化的知识图谱，并对其进行可视化分析和机器学习任务。此外，该工
SMBJ20A 二极管的作用揭秘 GR6692 二极管数据库管理员 eclipse python
30KPA84A单向TVS瞬态抑制二极管二极管产品已经跟我们的生活有着密不可分的联系了，TVS瞬态抑制二极管，是一种高效能保护二极管，产品体积小、功率大、响应快等诸多优点，产品应用广泛。TVS瞬态抑制二极管30KPA84A，是一种二极管形式的高效能被动保护器件贴片TVS瞬态抑制二极管详情简介TVS瞬态抑制二极管30KPA84A极性(单双向)：单向VRWM(V)电压84V最大箝位电压@IPP：139
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 安全 web安全网络网络安全 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 网络安全 web安全 linux 密码学 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
设计数据密集型应用之数据系统基础知识 xt01234
第一章可靠性针对系统的容错设计，提高系统错误的抛出率，而不是忽略它(除了安全这种不可恢复类型的)，尽量避免failure硬件错误硬件自身容许设计软件系统的灵活性与弹性。即容许整台机器异常，而不影响系统软件错误影响范围大，连锁反应，排查难。bug，依赖服务错误等避免：考虑全面，全面测试，处理隔离，监控人类错误最小化犯错机会的方式设计系统，全面测试，允许从错误中恢复，监控Scaliability(可扩
如何备战软考网络工程师？互联网之路. 知识点网络
互联网各领域资料分享专区(不定期更新)：Sheet前言软考网络工程师属于中级资格考试，通过这个考试来获得职称或者提升自己的专业技能。软考网络工程师的考试内容和结构。考试分为上午的综合知识和下午的案例分析，可能涉及计算机网络的基础知识、网络设备配置、网络安全、网络管理等方面。实践操作对下午的案例题很重要，可能需要配置模拟器来练习。但一般没有实际设备，所以模拟器是必要的。同时，真题的重要性不可忽视，需
pythonxml模块高级用法_Python minidom模块用法示例【DOM写入和解析XML】 Lucy-露西娅 pythonxml模块高级用法
本文实例讲述了Pythonminidom模块用法。分享给大家供大家参考，具体如下：一、DOM写XML文件#-*-coding:utf-8-*-#!python3#导入minidomfromxml.domimportminidom#1.创建DOM树对象dom=minidom.Document()#2.创建根节点。每次都要用DOM对象来创建任何节点。root_node=dom.createElemen
XML的介绍及使用DOM，DOM4J解析xml文件 late summer182 xml java
1XML简介XML（可扩展标记语言，ExtensibleMarkupLanguage）是一种用于定义文档结构和数据存储的标记语言。它主要用于在不同的系统之间传输和存储数据。作用：数据交互配置应用程序和网站Ajax基石特点XML与操作系统、编程语言的开发平台无关实现不同系统之间的数据交换2XML文档结构王珊.NET高级编程包含C#框架和网络编程等李明明XML基础编程包含XML基础概念和基本作用2.1
知识图谱的作用及其更新方式甜瓜瓜哥面试人工智能知识图谱人工智能
知识图谱的作用及其更新方式简介作用1.语义理解和推理2.信息检索3.推荐系统4.自然语言处理5.智能对话系统更新知识图谱的过程1.数据收集2.数据清洗和处理3.知识抽取4.知识融合5.验证和评估6.部署和应用总结简介知识图谱是一种以图形结构表示知识的方法，它包含了实体（如人物、地点、事物）以及它们之间的关系。知识图谱可以用于帮助计算机理解和处理自然语言，进行信息检索，进行推荐系统等多种应用。作用1
前端开发入门指南：HTML、CSS和JavaScript基础知识方向感超强的 javascript css html 前端
引言：大家好，我是一名简单的前端开发爱好者，对于网页设计和用户体验的追求让我深深着迷。在本篇文章中，我将带领大家探索前端开发的基础知识，涵盖HTML、CSS和JavaScript。如果你对这个领域感兴趣，或者想要了解如何开始学习前端开发，那么这篇文章将为你提供一个良好的起点。1.前端开发概述在我们深入了解前端开发的细节之前，让我们先了解一下前端开发的定义和作用。简而言之，前端开发涉及构建用户直接与
16、电科院FTU检测标准学习笔记-基本性能2 six2me 配电自动化(FTU)测试笔记学习笔记 FTU 配电检测
作者简介：本人从事电力系统多年，岗位包含研发，测试，工程等，具有丰富的经验在配电自动化验收测试以及电科院测试中，本人全程参与，积累了不少现场的经验————————————————————————————————————目录交流工频电量影响量试验频率带来的影响谐波变化带来的影响不平衡电流对功率的影响三相功率测量元件之间相互作用引起的改变故障电流采集电流过载检测（大电流）状态量输出（遥控）输入SOE分
二进制、八进制、十进制和十六进制的相互转换前端熊猫 C语言开发语言二进制八进制十六进制 C语言
printf函数printf函数是C语言中用于将格式化的数据输出到标准输出（通常是屏幕）的函数。它位于stdio.h头文件中，因此在使用之前需要包含该头文件。printf函数的格式说明符格式说明符说明示例%d或%i输出或输入十进制有符号整数printf("%d",10);scanf("%d",&num);%u输出或输入十进制无符号整数printf("%u",10U);scanf("%u",&uns
js如何直接下载文件流涔溪 js javascript 前端开发语言
在JavaScript中直接处理文件下载，尤其是在处理文件流的情况下，通常涉及到使用fetchAPI或者XMLHttpRequest来获取文件流，并通过创建一个临时的标签（锚点元素）触发下载。以下是使用fetchAPI的一个示例：fetch('你的文件URL',{method:'GET',headers:{//如果需要的话，可以在这里添加请求头}}).then(response=>response
六、soul源码学习-SpringCloud项目本地运行 caihuayuan4 面试题汇总与解析 spring sql java 大数据
一、本地部署NacosNacos本地部署可以参考：http://www.iocoder.cn/Nacos/install/?self二、搭建SpringCloud项目示例代码:https://github.com/wyc192273/soul-learn-project/tree/main/sofa-demo搭建了简单的SpringCloud服务后，需要在项目中引入如下依赖：org.dromara
文件与目录操作函数详解归零 dddd c语言 linux 算法
在编程中，文件和目录操作是常见的任务。本文将详细讲解常用的文件操作函数和目录操作函数，包括其功能、参数、使用方法，并通过示例代码展示如何用这些函数实现常见的操作。文件操作函数1.1fopen()函数功能：打开或创建文件。参数：constchar*pathname：文件名。constchar*mode：文件操作模式。常见的模式有："r"：只读模式，文件必须存在。"w"：只写模式，文件不存在则创建，存
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！网安詹姆斯 web安全 CTF 网络安全大赛 python linux
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、S
定制Jira优先级图标以提升项目管理效率 tianjiaxiaoer
本文还有配套的精品资源，点击获取简介：Jira是软件开发团队中广泛使用的项目管理和问题追踪工具，其默认优先级图标可能不满足所有团队的需求。用户可以自定义优先级图标来更好地反映任务的紧急性和重要性。定制步骤包括访问系统设置、上传和关联新图标、调整显示设置以及通知团队成员。自定义图标有助于团队更有效地沟通和管理任务优先级，提升工作流程的效率。1.Jira在项目管理中的应用在现代企业中，有效管理项目对成
数据集 handpose_x_3d-wider_world V1 室外自然场景三维手势＞＞ DataBall Xian-HHappy DataBall数据集合（计算机视觉）-数据也可如此美好 3d
数据集handpose数据集handpose_x_3d-wider_worldV1室外自然场景三维手势>>DataBall数据特点：*场景多样性*包括有无遮挡多样性*有无拿物体多样性数据标注信息包括：二维21关键点，三维21关键点，三维网格点，图像相机内参。想要进一步了解，请联系。DataBall助力快速掌握数据集的信息和使用方式，会员享有百种数据集，持续增加中。示例：助力快速掌握数据集的信息和使
handpose_X 之 onnx runtime C++（手部关键点检测） Xian-HHappy 手部关键点检测 ONNX ONNXRuntime C++推理模型转换
handpose_X之onnxruntime相关项目地址：1、手部关键点检测项目地址：https://gitcode.net/EricLee/handpose_x该项目中通过脚本model2onnx.py，将.pth模型转为.onnx模型。示例视频：开源项目-手势识别手势检测手部21关键点检测2、手部关键点检测onnx模型，onnxruntimeC++模型推理。项目地址：https://gitco
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

[网摘]开发基于 Nutch 的集群式搜索引擎

你可能感兴趣的:(Nutch,简介,示例,基础知识,抓取)