龙鸟

Nutch Hadoop 教程

怎样安装Nutch和 Hadoop

搜寻网页和邮件列表，似乎很少有关于如何使用Hadoop （曾经的DNFS）分布式文件系统（ HDFS ）和MapReduce来安装Nutch的文章。本教程的目的是通过逐步讲解的方法，来讲解了如何在多节点的Hadoop文件系统上运行Nutch，包括能够同时索引（爬取）和搜寻多台机器。

这篇文档没有涉及到Nutch或Hadoop架构。它只是讲述了如何让系统启动和运行。然而，在教程的最后，如果您想更多地了解Nutch和Hadoop的体系结构，我将指给您相关的资源。

本教程的有些事情是预先假定的：

首先，我进行了一些设置并且使用了根层级的存取。这包括在多个机器上建立同一个用户以及在用户主目录之外建立一个本地的文件系统。安装Nutch和Hadoop并不一定非要根存取（虽然有时它非常便利）。如果您没有根访问权限，您将需要把同一个用户安装在所有您正在使用的机器上，而且您可能需要在您的主目录内使用一个本地文件系统。

二，由于Hadoop使用SSH来启动从服务器，所有的机器都将需要有一个SSH服务器在运行（不只是一个客户端）。

三，本教程使用的是 Whitebox Enterprise Linux 3 Respin 2（WHEL）。那些不知道Whitebox的人可以认为它是一个RedHatEnterprise Linux的克隆版本。您应该能够将它推广到任意linux系统，但我使用系统是Whitebox。

四，本教程使用Nutch 0.8 Dev Revision 385702，而且也许并不能与Nutch或Hadoop的未来版本兼容。

五，通过本教程我们在6台不同的电脑上安装Nutch。如果您使用的是不同数量的机器，您仍然应该可以完成，但您至少应该有两台不同的机器，以证明HDFS和MapReduce的分布能力。

六，本指南中，我们从源头建立Nutch 。可以得到Nutch和Hadoop的每页构建，我之后会给您那些链接。

七，请记住，这是一本从我个人安装Nutch和Hadoop经验出发的教程。如果出现错误，尝试搜索以及发邮件到Nutch或Hadoop用户邮寄清单。而且，欢迎提出有助于改善本教程的建议。

网络设置

首先请允许我安排将在我们的安装中使用的电脑情况的设置。为了安装Nutch和Hadoop，我们准备了7台从750Mghz至1.0 GHz之间的商品电脑。每台计算机至少有128Megs的RAM和至少10G硬盘。一台电脑拥有两个750Mghz的CPU并且另一台拥有两个30Gigabyte的硬盘。所有这些电脑均是以$ 500.00的清售价买入的。我告诉您这些，是想让您知道，您并不一定要有大的硬件来启动并运行使用Nutch和Hadoop 。我们的电脑是像这样命名的：

devcluster01
devcluster02
devcluster03
devcluster04
devcluster05
devcluster06

我们的主节点是devcluster01 。由主节点运行Hadoop服务，协调与从节点（所有其他的计算机上），在这台机器上，我们履行检索和部署我们的搜索网站。

下载Nutch和 Hadoop

Nutch和Hadoop都是可以从apache网站上下载的。必要的Hadoop是与Nutch捆绑在一起的，所以除非您打算开发Hadoop，否则您只需要下载Nutch。

在把Nutch的源从版本库下载后，我们需要根据它构建Nutch。这里有Nutch和Hadoop的每页构建：

http://cvs.apache.org/dist/lucene/nutch/nightly/

http://cvs.apache.org/dist/lucene/hadoop/nightly/

我使用eclipse来开发，因而我使用了eclipse插件下载Nutch和Hadoop的版本库。eclipse的subversion插件可以通过使用下面链接下载更新：

http://subclipse.tigris.org/update_1.0.x

如果您使用的不是eclipse，您将需要得到版本控制客户端。只要您有一个版本控制客户端，您就可以浏览Nutch的版本控制网页：

http://lucene.apache.org/nutch/version_control.html

或者，您也可以通过用户端访问Nutch 的版本库：

http://svn.apache.org/repos/asf/lucene/nutch/

从服务器下载代码到myEclipce，也可以下载到一个标准文件系统中。我们要利用ant来构建它，因此如果您安装了Java和ant，那么将会更方便。

我不打算讲解如何安装Java或ant，如果您正在使用这些软件您应该知道该怎么做，而且有大量关于ant软件建设的教程。如果您想要一本完整的ant参考书，推荐使用Erik Hatcher的书 "Java 开发与Ant":

http://www.manning.com/hatcher

编译Nutch和 Hadoop

一旦您将Nutch下载到下载目录，您应该看到以下文件夹和文件：

+ bin
+ conf
+ docs
+ lib
+ site
+ src
        build.properties (add this one)
        build.xml
        CHANGES.txt
        default.properties
        index.html
        LICENSE.txt
        README.txt

新增一个build.properties文件并且在它里面添加一个叫做dist.dir的变量，它的值为要构建nutch的位置。所以，如果您是基于 Linux构建，将看起来就像这样：

dist.dir=/path/to/build

这一步实际上是可选的，Nutch将在它所解压的默认目录里创建一个构建目录，但我更喜欢把它构建到一个外部的目录。您可以为这个构建目录随便命名，但我建议使用一个新的空文件夹来构建。请记住，如果构建文件夹不存在必须自己构建。

像这样调用ant包任务来构建nutch：

ant package

这应将nutch构建到您的构建文件夹中。当它完成时您准备开始部署和配置nutch。

建立部署架构

一旦我们将nutch部署到所有六个机器，我们要调用脚本start-all.sh来启动主节点和数据节点上的服务。这意味着，该脚本将启动主节点上的hadoop守护进程，然后将ssh到所有的从节点，并启动从节点的守护进程。

start-all.sh脚本期望nutch是精确地安装在每一台机器完全相同的位置上。同时也期望Hadoop在每台机器完全相同的路径上存储数据。

我们这样做的目的是在每台机器上构建以下目录结构。搜索目录是Nutch的安装目录。该文件系统是hadoop文件系统的根文件。主目录是nutch用户的主目录。在我们的主节点，为了进行搜索我们还安装了一个tomcat5.5服务器。

/nutch
/search
    (nutch installation goes here)
/filesystem
/local (used for local directory for searching)
/home
    (nutch user's home directory)
/tomcat    (only on one server for searching)

我不会细谈如何安装tomcat,有大量讲述如何做到这一点的教程。我要说的是，我们移除了所有webapps目录下的网络应用程序文件，并在webapps下建立了一个名为ROOT的文件夹，我们解压Nutch的网络应用程序文件（nutch - 0.8 - dev.war）到这个文件夹里。这令编辑Nutch网络应用程序文件中的配置文件变得很容易。因此，登录到主节点和所有从节点的根目录。用下面的命令构建nutch用户和不同的文件系统：

ssh -l root devcluster01

mkdir /nutch
mkdir /nutch/search
mkdir /nutch/filesystem
mkdir /nutch/local
mkdir /nutch/home

groupadd users
useradd -d /nutch/home -g users nutch
chown -R nutch:users /nutch
passwd nutch nutchuserpassword

同样如果您没有根层级的存取，您将仍然需要在每台机器上有同样的用户，正如start-all.sh脚本期望的那样。没有必要创立一个名为nutch user的用户，虽然我们是这么使用的。也可以把文件系统放到公共用户的主目录下。基本上，您不必root用户，但如果是的话这会有帮助。

启动主从节点上后台程序的 start-all.sh脚本将需要能够通过ssh以password-less模式登录。为此, 我们将不得不在每个节点上安装ssh密钥。由于主节点将会在它自身上启动后台程序，我们还需要能够使用较少密码登录到本机。

您可能会看到一些关于用户列表的旧教程或资料，它们介绍说您将需要编辑ssh守护进程来满足PermitUserEnvironment属性，并且还需要安装本地环境变量来通过一个环境文件使用ssh登录。现在已经不需要这样做了。我们不再需要编辑ssh守护进程，并且我们可以安装环境变量在hadoop-env.sh文件内。用vi打开hadoop-env.sh文件：

cd /nutch/search/conf
vi hadoop-env.sh

以下是一个需要在hadoop-env.sh文件中改变的环境变量的模板：
export HADOOP_HOME=/nutch/search
export JAVA_HOME=/usr/java/jdk1.5.0_06
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves

在这个文件中还有其它一些将影响Hadoop的行为的变量。如果当您开始运行脚本后获得ssh错误，尝试改变HADOOP_SSH_OPTS变量。还注意到，在经过最初的复制后，您可以在您的conf/ hadoop-env.sh中设置HADOOP_MASTER，它将把主机上的异机变化从主机同步到每一个从机上。下面有一节是讲述如何做到这一点的。

下一步我们为主节点构建键值，并向每一个从节点复制。这必须要在我们之前创建的nutch用户下进行。不要只登录为 nutch用户，启动一个新的shell并登录为nutch用户。如果如果您以password-less模式登陆的话，安装在测试中不会正常进行，但是当一个新用户作为nutch用户登录时将会正常进行。

cd /nutch/home

ssh-keygen -t rsa (Use empty responses for each prompt)
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /nutch/home/.ssh/id_rsa.
Your public key has been saved in /nutch/home/.ssh/id_rsa.pub.
The key fingerprint is:
a6:5c:c3:eb:18:94:0b:06:a1:a6:29:58:fa:80:0a:bc nutch@localhost

在主节点将会复制公钥到您刚刚构建的在同一目录的一个名为authorized_keys的文件：

cd /nutch/home/.ssh
cp id_rsa.pub authorized_keys

您只需要在主节点上运行ssh-keygen。在每一个从节点上，当文件系统被创建后，您只需要通过使用scp复制这些键值。

scp /nutch/home/.ssh/authorized_keys nutch@devcluster02:/nutch/home/.ssh/authorized_keys

nutch用户第一次使用必须输入密码。一个SSH propmt在您第一次登录到每一台电脑时将会出现，来询问您是否要添加计算到已知的主机。对propmt回答确定。一旦密钥被复制以后，您作为 nutch用户登录时不再需要输入密码。登陆刚复制键值的从节点来进行测试：

ssh devcluster02
nutch@devcluster02$ (a command prompt should appear without requiring a password)
hostname (should return the name of the slave node, here devcluster02)

一旦我们创建了ssh键值，我们准备开始在所有的从节点部署nutch。

部署Nutch到单台机器

首先，我们将部署nutch到一个单一节点，主节点，但在分布式模式下运转它。这意味着将使用Hadoop的文件系统，而不是本地的文件系统。我们将开启一个单一节点，以确保所有的一切都在运行，然后将移至新增的其它的从节点。以下的所有都是以nutch用户身份进行的。我们将在主节点上安装nutch，然后当我们已经准备好，我们将整个安装复制到各个从节点。首先使用类似于下面的命令，来从nutch构建复制文件到部署目录中：

cp -R /path/to/build/* /nutch/search

然后确保所有的shell脚本是在unix格式并且是可执行的。

dos2unix /nutch/search/bin/*.sh /nutch/search/bin/hadoop /nutch/search/bin/nutch
chmod 700 /nutch/search/bin/*.sh /nutch/search/bin/hadoop /nutch/search/bin/nutch
dos2unix /nutch/search/config/*.sh
chmod 700 /nutch/search/config/*.sh

当我们第一次尝试安装nutch时，我们遇到了坏的解释程序和命令，却没有发现错误，因为脚本是在Linux上的dos格式，而不是可执行的。请注意，我们正在做的是既有bin目录又有config目录。在config目录中有一个名为hadoop-env.sh的文件，它会被谓的其它脚本调用。

有几个脚本您需要了解。在 bin目录下有nutch脚本， hadoop脚本，start-all.sh脚本和stop-all.sh脚本。nutch脚本是用来做像开启nutch爬取之类的事的。hadoop脚本可以让您与hadoop文件系统相互配合。start-all.sh脚本启动所有主从节点上的服务器。stop-all.sh 停止所有服务器。

如果您想看nutch的选项，使用下面的命令：

bin/nutch

或者，如果您想看到hadoop的选项，使用：

bin/hadoop

如果您想看Hadoop如分布式文件系统之类的元件的选项，那么使用元件名称作为输入，如下：

bin/hadoop dfs

还有一些文件您需要了解。在conf目录下有nutch- default.xml，nutch-site.xml，hadoop-default.xml和hadoop-site.xml。在nutch- default.xml文件中保存有nutch的所有默认选项，hadoop-default.xml文件保存有hadoop的所有默认选项。要覆盖所有的这些选项，复制各个属性到各自的*-site.xml文件中来改变它们的值。下面我会给您一个hadoop-site.xml文件的例子和一个 nutch-site.xml文件的例子。

config目录中还有一个名为slaves的文件。这就是我们放置从节点名字的地方。由于我们运行数据从节点和主节点在同一台机器上，我们还需要在从节点名单上的本地计算机。以下是从节点文件开始时会显示的样子。

localhost

它以这种方式开始，所以您不应该做任何更改。然后，我们将所有的节点加入到这个文件，每行一个节点。下面就是一个hadoop-site.xml文件的例子。

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>
<name>fs.default.name</name>
<value>devcluster01:9000</value>
<description>
The name of the default file system. Either the literal string
"local" or a host:port for NDFS.
</description>
</property>

<property>
<name>mapred.job.tracker</name>
<value>devcluster01:9001</value>
<description>
The host and port that the MapReduce job tracker runs at. If
"local", then jobs are run in-process as a single map and
reduce task.
</description>
</property>

<property>
<name>mapred.map.tasks</name>
<value>2</value>
<description>
define mapred.map tasks to be number of slave hosts
</description>
</property>

<property>
<name>mapred.reduce.tasks</name>
<value>2</value>
<description>
define mapred.reduce tasks to be number of slave hosts
</description>
</property>

<property>
<name>dfs.name.dir</name>
<value>/nutch/filesystem/name</value>
</property>

<property>
<name>dfs.data.dir</name>
<value>/nutch/filesystem/data</value>
</property>

<property>
<name>mapred.system.dir</name>
<value>/nutch/filesystem/mapreduce/system</value>
</property>

<property>
<name>mapred.local.dir</name>
<value>/nutch/filesystem/mapreduce/local</value>
</property>

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

</configuration>

nutch使用fs.default.name属性，以确定要使用的文件系统。由于我们使用的是hadoop文件，我们必须向hadoop主节点或名称节点指明这一点。在这种情况下，我们网络上的名称节点是被安置在服务器 devcluster01：9000上的。

hadoop包有两个元件。其中之一是分布式文件系统。二是mapreduce功能。分布式文件系统让您可以在很多商品机上储存和复制文件，mapreduce包使您可以轻松地执行并行编程任务。

分布式文件系统有名称节点和数据节点。当客户端要使用文件系统中的一个文件时，它会联系名称节点，后者会告诉它要联系哪个数据节点以获取这个文件。名称节点是协调员并存储有什么块（而不是真的文件，但您现在可以这样认为它们）存储在什么计算机上面，以及什么需要复制到不同的数据节点上这些信息。这些数据节点任务繁重。它们的工作包括存储实际的文件，为它们的要求服务等等。所以如果您正在运行一个名称节点和与它在同一台计算机上的一个数据节点，它仍然会通过sockets进行通信，就好像数据节点在一台不同的计算机上一样。

在这里我不会细谈mapreduce如何工作，这是一个在另一本教程中给出的话题，当我自己比较深刻了解它了时，我会写一本教程。不过现在只是把mapreduce的编程任务分割成map操作（a -> b,c,d）和reduce操作（list-> a）。一旦一个问题已被分解成map和reduce操作，那么多个map操作和多个reduce操作可以是分布式的以在不同的服务器上并行运行。因此，并不是把一个文件交给一个文件系统节点，而是我们移交一个进程操作到一个节点，这个节点将会处理这个进程操作，并返回结果到主节点。mapreduce的协调服务器被称为mapreduce作业跟踪器。每个执行处理的节点有一个被称之为任务追踪器的守护进程在运行，它与mapreduce作业跟踪器相连接。

文件系统和mapreduce的节点与它们的主节点通过每5-10秒左右一次的持续心跳（像爆鸣声）进行通信。如果心跳停止，那么主节点假定此节点已关闭，并在后面的操作中不再使用它。

mapred.job.tracker 属性指定了主机mapreduce跟踪器，所以我猜测可能名称节点和mapreduce跟踪器在不同的计算机上。然而我还没有做相关事情来验证我的猜想。

mapred.map.tasks和 mapred.reduce.tasks属性记录要并行运行任务的数目。这应该是您所拥有计算机数目的一个倍数。在我们的情况中，因为开始我们已经有了一台计算机，因而我们将有2个map和2个reduce任务。之后，随着我们增添更多的节点，我们将增加这些值。

dfs.name.dir属性是名称节点所使用的目录，用来为数据节点存储跟踪和协调信息。

dfs.data.dir属性是数据节点所使用的目录，用来存储实际的文件系统数据块。请记住，这一点是被期望在每一个节点上都是相同的。

mapred.system.dir 属性是mapreduce跟踪器用来存储它数据的目录。这只是在跟踪器上的，而不是在mapreduce主机上的。

mapred.local.dir属性是在mapreduce用来储存本地数据的节点上的目录。我发现 mapreduce使用了大量的本地空间来完成其任务（即在千兆字节空间中）。然而那可能仅仅看我如何进行我的服务器配置了。我还发现，mapreduce所产生的中间文件似乎并没有在任务退出时被删除。也可能是我的配置问题。这个属性也被期望在每一个节点上都相同。

dfs.replication属性记录一个文件在使用前应该复制到的服务器的数目。由于我们当前只用一个单一的服务器，我们的这个数目是1。如果您设置此值高于您能使用的数据节点的数目，那么您将在日志中开始看到大量的（Zero targets found，forbidden1.size = 1）类型错误。随着我们添加更多的节点，我们将增加该值。

在您启动hadoop服务器之前，确保您格式化分布式文件系统为同一个名称节点：

bin/hadoop namenode -format

现在我们已经配置好了我们的hadoop和从节点文件，是时候在单一节点上启动hadoop并测试它是否工作正常了。要以nutch用户身份启动所有在本地计算机上的hadoop服务器（名称节点，数据节点， mapreduce跟踪器，作业跟踪器）请使用下面的命令：

cd /nutch/search
bin/start-all.sh

要停止所有服务器，您可以使用下面的命令：

bin/stop-all.sh

如果一切已正确安装，您应该可以看到输出结果，提示名称节点，数据节点，作业跟踪器，以及任务跟踪器服务工作已经开始。如果您看到这些，意味着我们已经准备好测试文件系统了。您也可以看看在/nutch/search /logs路径下的日志文件，来查看我们刚刚启动的来自不同的后台程序服务的输出。

为了测试文件系统，我们要创造一个链接列表，后面我们将用来爬取。运行下面的命令：

cd /nutch/search
mkdir urls
vi urls/urllist.txt

http://lucene.apache.org

您现在应该有一个urls/urllist.txt文件，它的一行指向apache lucene的网站。现在，我们要补充目录到文件系统中。之后nutch爬取将利用这一文件作为一个链接列表来爬取。要添加链接目录到文件系统中，请运行下面的命令：

cd /nutch/search
bin/hadoop dfs -put urls urls

您应该看到提示目录已添加到文件系统的输出。通过使用ls命令，您也可以证实该目录已被添加：

cd /nutch/search
bin/hadoop dfs -ls

有意思的是，分布式文件系统是针对具体用户的。如果您用nutch用户来存储一个目录链接，它实际上是存储为/user/nutch/urls。这意味着完成爬取并存储它在分布式文件系统中的用户一定要是那个开启搜索的用户，否则将没有结果返回。通过以不同的用户身份登陆并且如图所示的运行ls命令，您可以自己尝试这个。它不会找到目录，因为它是寻找在一个不同的目录 /user/username下寻找，而不是/user/nutch 下。

如果一切工作顺利，那么您可以添加其它节点，并开始爬取。

部署Nutch到多台机器

一旦您使得单一节点启动和运行，我们可以将配置复制到其他从节点上，并设置这些将被开启的从节点启动脚本。首先，如果您还有服务器运行在本地节点上，那么使用stop-all脚本来停止它们。

运行下面的命令复制配置到其它机器。如果您遵循了配置，事情应该会顺利进行：

cd /nutch/search
scp -r /nutch/search/* nutch@computer :/nutch/search

为您要使用作从节点的每一台计算机做这些事情。接着编辑从文件，添加每个从节点名称到这个文件，每行一个。您也将要修改hadoop-site.xml文件，并改变map和reduce任务的数目值，使它成为您所拥有机器数目的一个倍数。对于我们有6个数据节点的系统，我把任务数目定为32。复制属性也可以改变。一个良好的开始值是比如2 或 3. *这样的。（见底部关于可能必须清理新数据节点文件系统的注释）。一旦做到这一点您应该能够启动所有的节点。

就像前面那样我们使用相同的命令来启动所有的节点：

cd /nutch/search
bin/start-all.sh

类似'bin/slaves.sh uptime'的命令是一种很好的在调用start-all.sh脚本前用来测试配置是否正确的方式。

第一次启动所有的节点，可能会出现ssh对话框，来需询问是否添加主机到known_hosts文件。您必须每一个都输入yes并按回车键。开始时输出会有一点奇怪，但如果对话不断出现请一直输入yes并按回车。您应该看到输出显示所有在本地机器上的服务器启动以及从节点上的作业跟踪器和数据节点服务器启动。一旦完成这个，我们就准备好开始我们的爬取了。

执行Nutch抓取

现在我们有分布式文件系统的启动和运行，我们可以开始我们nutch爬取。在本教程中我们只去爬取一个单点。比起关心别人是否能够了解nutch的爬取方面，我更关心如何能够安装分布式文件系统和mapreduce。

为了确保我们爬取只是一个单点，我们要编辑crawl urlfilter文件，设置过滤器为只读取lucene.apache.org：

cd /nutch/search
vi conf/crawl-urlfilter.txt

change the line that reads: +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
to read: +^http://([a-z0-9]*\.)*apache.org/

我们已经添加我们的链接到分布式文件系统中并且已经编辑了urlfilter，现在要开始爬取了。使用下面的命令启动nutch爬取：

cd /nutch/search
bin/nutch crawl urls -dir crawled -depth 3

我们使用的是nutch爬取命令。这个链接是我们增加到分布式文件系统的链接目录。-dir爬取是输出目录。这也将前往分布式文件系统。深度为3这意味着它只会有3个网页链接深。还有其他的选项，您可以指定，见这些选项的命令文件。

您应该看到爬取启动，看到运行中作业的输出以及map和 reduce百分比。您可以通过将您的浏览器指向主名称节点来跟踪作业：

http://devcluster01:50030

您也可以启动新终端到从节点中，跟踪日志文件来查看此从节点的详细输出。爬取可能会需要一段时间才能完成。当它完成时我们已经准备好做搜索了。

执行搜索

要在分布式文件系统上搜索我们刚刚建立的索引，我们需要做两件事。首先，我们需要将索引放到一个本地文件系统中，第二我们需要安装和配置nutch网络应用程序文件。虽然技术上是可行的，但是使用分布式文件系统做搜索是不明智的。

DFS是MapReduce进程结果的记载，包括完全索引，但它的搜索时间太长。在一个生产系统中您会想要使用MapReduce系统来建立索引并且在DFS上存储结果。然后，您要复制这些索引到一个本地文件系统中以便于搜索。如果索引太大（有1亿页索引），您会想分割索引到多个分片（每个分片1-2百万页），从DFS将索引片复制到本地文件系统中，并且从那些本地索引片中读入多个搜索服务器。全分布式搜索设置的主题，在另外的教程中会专门介绍。但现在请认识到，您不希望使用DFS进行搜索，您要使用本地文件系统进行搜索。

一旦DFS上已经创建索引，可以像这样使用hadoop copyToLocal命令将其移动到本地文件系统中。

bin/hadoop dfs -copyToLocal crawled /d01/local/

您的爬取目录应该有一个索引目录，它应包含实际的索引文件。之后使用 Nutch和Hadoop时，如果您有一个文件夹的索引目录在它里面，如part-XXXXX，您可以使用nutch合并命令，来合并部分索引成一个单一索引。搜索网站在被指向本地时，将寻找一个有一个索引文件夹的目录，它包含了合并后的索引文件或一个包含部分索引的索引文件夹。这可能是一个棘手的部分，因为您的搜索网站可以正常工作，但如果它没有找到索引那么所有的搜索将返回空。

如果您像我们之前提到的那样安装了tomcat服务器，那么您应该有一个tomcat安装在/nutch / tomcat下，并且在webapps目录中您应该有一个名为ROOT的文件夹，ROOT文件夹中有解压缩的nutch网络应用程序文件。现在我们只需要配置应用程序以使用分布式文件系统搜索。我们这样做是通过在WEB-INF/classes目录下编辑hadoop-site.xml文件。请使用以下命令：

{{ cd /nutch/tomcat/webapps/ROOT/WEB-INF/classes vi nutch-site.xml }}}

以下是模板nutch - site.xml文件：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>
<name>fs.default.name</name>
<value>local</value>
</property>

<property>
<name>searcher.dir</name>
<value>/d01/local/crawled</value>
</property>

</configuration>

fs.default.name属性指向本地来寻找本地索引。了解了这一点，我们不是使用DFS或MapReduce做搜索，全部都是在本地机器上的。

searcher.dir是索引以及由此产生的数据库在本地文件系统存储的目录。在我们的爬取命令之前，我们使用爬取目录，它存储了在DFS上爬取结果。然后，我们复制爬取文件夹到我们本地文件系统的/d01 /local目录下。因此，我们把这个属性指向/d01/local/crawled。所指向的路径不应该只包含索引目录，还应该有数据库连接，分片，等等。所有这些不同的数据库都被这次搜索使用。这就是为什么我们复制爬取目录，并不仅仅是索引目录。

nutch-site.xml文件编辑好后，应用程序就可以准备运行了。您可以用下面的命令开始tomcat：

cd /nutch/tomcat
bin/startup.sh

然后使用浏览器访问 http://devcluster01:8080 （您的搜索服务器）看到Nutch搜索网络应用。如果一切已正确配置，那么您应该能够进入查询和取得成果。如果网站能够工作，但您没得到任何结果，可能是因为索引目录没有被发现。该searcher.dir属性必须被指定为目录索引的父级。此父级必须包含这个索引分片部分，数据库连接，爬取文件夹。该索引文件夹必须命名为index并且包含有合并的分片索引，这意味着索引文件在索引目录下，而不是在下面的目录，比如名为part- xxxx的目录，或者索引目录必须命名为indexes而且包含有名为part-xxxxx的分片索引，这些分片索引掌握着索引文件。我更喜欢合并索引而不是分片索引。

分布式搜索

虽然不是本教程真正的主题，分布式搜索需要注意。在一个生产系统中，您将使用DFS和MapReduce来创建索引和相应的数据库（即crawldb ）。但您会利用专用搜索服务器上的本地文件系统来搜索它们，来保证速度并避免网络开销。

这里简要说明您如何设置分布式搜索。在nutch-site.xml文件tomcat WEB-INF/classes目录中，您可以将searcher.dir属性指向一个包含了search-servers.txt文件的文件。 search-servers.txt文件看起来就像这样。

devcluster01 1234
devcluster01 5678
devcluster02 9101

每一行包含一个机器名称和端口，代表了搜索服务器。这告诉网站连接到在这些端口上的搜索服务器。

在每个搜索服务器上，因为我们正在寻找本地目录搜索，您需要确保nutch-site.xml文件中的文件系统指向本地。其中一个可以跨越的问题是，我是使用与我运行分布式搜索服务器时所使用的相同的nutch分配，来为DFS和MR作为一个从节点运行。问题是当分布式搜索服务器启动时，它是在DFS中寻找文件读入的。它无法找到他们，我只获得了日志消息称x服务器有0分片。

我发现最容易的是在一个单独的文件夹中再创建另一个nutch。然后从这个单的分配启动分布式搜索服务器。我只是使用了默认的配置，nutch-site.xml和hadoop- site.xml文件都没有配置。这默认的文件系统在本地，并且分布式搜索服务器能够在本地机器上找到它需要的文件。

无论您怎样做到这一点，如果您的索引是在本地文件系统中的，那么配置需要指出使用本地文件系统，如下显示。这通常是hadoop-site.xml文件中设置的。

<property>
<name>fs.default.name</name>
<value>local</value>
<description>The name of the default file system. Either the
literal string "local" or a host:port for DFS.</description>
</property>

在每个搜索服务器，通过像这样使用nutch服务器命令，您可以启动分布式搜索服务器：

bin/nutch server 1234 /d01/local/crawled

启动的服务器所在的端口一定要符合你输入到search- servers.txt文件中的以及本地的索引文件夹父级的目录。一旦每台机器上的分布式搜索开始，您可以启动该网站。然后搜索正常进行，可能会发生搜索结果被撤出分布式搜索服务器索引的例外。在登录搜索网站（通常是catalina.out文件）以后，您应该看到有信息告诉您网站相关的和正在搜索的服务器和索引分片的数量。这将使您知道安装是否正确无误。没有来命令关闭分布式搜索服务进程，只能手动关闭。好消息是，网站在它的search-servers.txt文件中不断检查服务器，来确定他们是否工作，使你可以关闭一个单一的分布式搜索服务器，改变其索引并把它备份然后网站将自动重新连接。在任何时间整个搜索从不关闭，只有特定部分的索引将关闭。

在一个生产环境中，搜索是消耗最多机器和电力的。原因是，一旦索引需要超出约2百万个网页，它花了太多的时间从磁盘读出，所以您可以有1亿页索引在一台机器上而不必管硬盘有多大。值得庆幸的使用分布式搜索，您可以有多个专用搜索服务器，每一个都有自己的索引片来完成并行的搜索。这让非常大的索引系统可以有效地进行搜索。

1亿页的页面系统将需要大约50个专用搜索服务器来提供每秒20多个的查询服务。一个不必有这么多的机器的方法是使用多处理器机器，它们有可以运行多个搜索服务器的多个磁盘，每一个使用一个独立的磁盘和索引。走这条路线，您可以使机器成本下降了50 ％之多，电力成本的下降多达75 ％。一个多磁盘机不能处理像一个专用的单磁盘机那样多的每秒查询，但它能够处理的索引页面明显更大，所以它平均来讲更加有效。

同步代码到从节点

Nutch 和Hadoop能够将主节点的变化同步到从节点。然而这是可选的，因为它减慢了服务器的启动，而且您可能不希望将变化自动同步到从节点。

如果您想启用此功能，下面我会向您展示如何配置您的服务器来完成从主节点的同步。有几件事您应该事先知道。一，即使从节点可以从主节点同步，第一次您还需要先复制基础安装到从节点上，来时脚本对于同步是可用的。我们做到了上述这样就不需要做任何改变了。二，同步发生的方式是，主节点ssh到从节点，并调用bin/ hadoop - daemon.sh 。从节点上的脚本调用rsync回到主节点。这意味着，您必须有一个可以从每个从节点登录到主节点上去的password-less模式的登陆。在我们安装password-less登陆模式之前，现在我们需要逆着做。三，如果您对rsync选项有问题（我有问题，我不得不修改选项，因为我执行的是旧版的 ssh），在bin/ hadoop - daemon.sh脚本82行左右的地方调用rsync命令。

所以，第一件我们需要做的事是安装在conf/hadoop-env.sh文件中hadoop主节点的变量。如下修改变量：

export HADOOP_MASTER=devcluster01:/nutch/search

这将需要复制到所有的从节点：

scp /nutch/search/conf/hadoop-env.sh nutch@devcluster02:/nutch/search/conf/hadoop-env.sh

最后，您需要登录到每一个从节点，为每台机器构建一个默认的SSH键值，然后将其复制回主节点，在主节点上您将它附加到/nutch/home/.ssh/authorized_keys文件中。以下是每个从节点的指令，当您复制键值文件回主节点时一定要改变从节点名字，这样您就不会覆盖文件：

ssh -l nutch devcluster02
cd /nutch/home/.ssh

scp id_rsa.pub nutch@devcluster01:/nutch/home/devcluster02.pub

一旦您对每个从节点进行这样的操作，您可以附加文件到主节点的 authorized_keys文件：

cd /nutch/home
cat devcluster*.pub >> .ssh/authorized_keys

这样安装后，无论什么时候运行bin/start-all.sh，脚本文件都会从主节点同步到每一个从节点。

结论

我知道这是一个很长的教程，但希望您能通过它熟悉nutch和hadoop 。Nutch和Hadoop是复杂的应用，如你所学到的那样设置他们并不一定是一件轻而易举的事。我希望，这篇文档能够帮助到您。

如果有任何意见或建议，请随时发送电子邮件给我[email protected] 。如果您对它们有疑问，Nutch或Hadoop有各自的邮件地址。以下是关于Nutch和Hadoop的使用和开发的各种资源。

更新

我不再使用rsync同步代码服务器。我现在用expect脚本和Python脚本来管理和自动化系统。
我使用的分布式搜索每个索引分片有1-2百万页。我们现在有多处理器和多磁盘（每机4盘）的服务器来运行多个搜索服务器（每盘一个服务器），以降低成本和功耗的要求。有800万网页的一台服务器可以每秒处理10个查询。

资源

Google MapReduce论文：如果您想更多了解Hadoop所使用的MapReduce架构，那么阅读这些论文是很有用的。

http://labs.google.com/papers/mapreduce.html

Google文件系统论文：如果您想更多了解Hadoop所使用分布式文件系统架构，那么阅读关于Google文件系统实现的论文是很有用的

http://labs.google.com/papers/gfs.html

构建Nutch-开源搜索：Doug Cutting写的一个有用的论文，关于开源搜索和特殊的Nutch。

Hadoop 0.1.2-dev API:

http://www.netlikon.de/docs/javadoc-hadoop-0.1/overview-summary.html

- 我， S tephenHalsey，使用本教程，并发现它非常有用的，但是当我试图增加额外的数据节点时，日志中的错误信息说：“2006-07-07 18:58:18,345 INFO org.apache.hadoop.dfs.DataNode:Exception:org.apache.hadoop.ipc.[http://wiki.apache.org/nutch/RemoteExceptionRemoteException]:org.apache.hadoop.dfs.UnregisteredDatanodeException:Data node linux89-1:50010is attempting to report storage ID DS-1437847760. Expecting DS-1437847760. ” 。我想这是因为在新的数据节点上的hadoop/filesystem/data/storage文件是相同的，它们有同从原始数据复制过来的数据一样的数据。要克服这一问题，我关闭了在名称节点上使用bin/stop-all.sh的一切，并删除了新数据节点上在/filesystem目录下一切，以使它们能够整洁，在名字节点运行bin/start-all.sh，然后看到，新数据节点上的文件系统已经被创建，随之还有新的hadoop /filesystem/data/storage文件和新目录，从那以后似乎一切运转正常。如果您不开启任何数据节点就按照上述过程做，这可能不是一个问题，因为它们都将是空的，但对我来说，因为在我复制dfs到新的数据节点上之前，我放了一些数据在这个单一数据节点系统的dfs上。我不知道在下面的这个过程中我是否犯了其它错误，但是我只是加上这个注释给那些在读这篇文章同时遇到同样的问题的人。文章写的非常好，非常有帮助。史蒂夫。

好教程！我试图设置，而无需提供新东西，只是为了测试（nutch 0.8）。我遇到了几个问题。但是，我让它工作了。一些经验：

使用绝对路径的DFS的位置。听起来奇怪的是，我是用这个，但我想在我的Windows笔记本电脑上建立一个单一的节点hadoop，然后扩展在Linux上。因此，相对路径名称会派上用场，因为它们将是相同的机器。不要尝试这一点，不会起作用的。当我切换到绝对路径时，DFS之前显示的 “ .. ”目录消失。
使DFS在Windows上完全运行。我总是最后获得这一异常： “Could not complete write to file e:/dev/nutch-0.8/filesystem/mapreduce/system/submit_2twsuj/.job.jar.crc by DFSClient_-1318439814 ”- nutch似乎还没有在Windows上做过很多测试。所以，使用Linux操作系统。
别使用挂载在NFS上的DFS（这将是非常愚蠢的，但只是用于测试，人们可能只设置一个NFS的homre目录）。DFS使用锁，NFS可能被配置为不允许使用锁。
当您第一次启动hadoop ，在名称日志里会有一个可以忽略的警告“dfs.StateChange - DIR* FSDirectory.unprotectedDelete: failed to remove e:/dev/nutch-0.8/filesystem/mapreduce/.system.crc because it does not exist”
如果您的错误是像 “failed to create file [...] on client [foo] because target-length is 0, below MIN_REPLICATION (1)”这样的，这意味着块不能分发。最有可能的是没有数据节点运行，或数据节点有一些严重的问题（如上述提到的锁问题）。

本教程的工作适合我，但我碰到的一个问题，即我的爬取是行不通的。原来，那是因为我需要来设置用户代理和爬取的其他属性。如果有人读这一点，并碰到同样的问题，看看更新教程

http://wiki.apache.org/nutch/Nutch0%2e9-Hadoop0%2e10-Tutorial?highlight=%28hadoop%29%7C%28tutorial%29

你可能感兴趣的:(hadoop,Nutch)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l