Nutch 入门

2.SequenceFile介绍：http://blog.163.com/jiayouweijiewj@126/blog/static/17123217720101121103928847/

Nutch是一个开源的网页抓取工具，主要用于收集网页数据，然后对其进行分析，建立索引，以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储，索引使用了Solr分布式索引框架来做，Solr是一个开源的全文索引框架，从Nutch 1.3开始，其集成了这个索引架构

3.1 对下载后的压缩包进行解压，然后cd $HOME/nutch-1.3/runtime/local

注意，这里是不带索引的，如果要对抓取的数据建立索引，运行如下命令

这时它会更新crawldb链接库，这里是放在文件系统中的，像taobao抓取程序的链接库是用redis来做的，一种key-value形式的NoSql数据库。

如果你要以HTML结构显示把Solr的配置文件solrconfig.xml中的content改为如下就可以

6 参考

Nutch 1.6 入门安装配置（集成solr）

测试环境 kubuntu12.04 jdk1.7.0_15 nutch 1.6 solr3.6.2

介绍

apachen nutch 是一个用java写的开源网络爬虫。使用它我们可以自动找到超链接，并且减少很多维护工作。例如，检测坏的链接，将爬过的网站copy下来。solr是一个开源的全文检索框架，使用它我们可以搜索nutch抓去来的网页。集成Nutch和solr是一件非常简单的事情。

apache nutch 支持solr的盒外集成（out-the-box），非常简单。nutch也不再tomcat来运行以前的那个web程序了，并且不用lucene来检索了。

步骤：

1.安装Nutch（二进制发行版）

首先去官网下载二进制包（apache-nutch-1.6-bin.zip），解压缩，将出现apache-nutch-1.6文件夹，进入文件夹cd apache-nutch-1.6。从现在起我们将用${NUTCH_RUNTIME_HOME}代表 apache-nutch-1.6。

2.验证是否安装正确

运行 bin/nutch 你看见如下文字说明安装正确了

Usage: nutch [-core] COMMAND

如果出现permission denied 那么说明没有运行权限，给其加上运行权限chmod +x bin/nutch。

如果看见JAVA_HOME not set,那么说明你的电脑没有安装jdk或是没有设置JAVA_HOME。安装jdk很简单这里就不说了。

3.抓取你的第一个网站

在conf/nutch-site.xml文件中添加你的代理名字

<name>http.agent.name</name>

<value>My Nutch Spider</value>

</property>

——————————————-示例—————————————————————–

<?xml version=”1.0″?>
<?xml-stylesheet type=”text/xsl” href=”configuration.xsl”?>

<!– Put site-specific property overrides in this file. –>

<configuration>
<property>
<name>http.agent.name</name>
<value>oscar</value>
<description>HTTP ’User-Agent’ request header. MUST NOT be empty -
please set this to a single word uniquely related to your organization.

NOTE: You should also check other related properties:

http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version

and set their values appropriately.

</description>
</property>
</configuration>

————————————————————————————————————–

创建一个urls文件夹，mkdir -p urls 然后进入文件夹，创建一个文本文件seed.txt。touch seed.txt。在文件中写入

http://nutch.apache.org/它是我们想要抓取的网站。然后编辑conf/regex-urlfilter.txt把

# accept anything else

替换成

+^http://([a-z0-9]*\.)*nutch.apache.org/这样他只会抓取nutch.apache.org域名里面的网页。

3.1 使用crawl命令

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

其中，

urlDir就是种子url的目录地址

-solr <solrUrl>为solr的地址（如果没有则为空）

-dir 是保存爬取文件的目录

-threads 是爬取线程数量（默认10）

-depth 是爬取深度 (默认5）

-topN 是访问的广度（默认是Long.max)

运行完成后你将看到这些目录产生了

crawl/crawldb

crawl/linkdb

crawl/segments

4.部署搜索用的solr

去solr官网下载二进制的文件，解压缩下载的文件。将得到apache-solr-3.6文件夹，接下来我们将用${APACHE_SOLR_HOME}代表该目录。进入${APACHE_SOLR_HOME}/example。然后运行如下命令java -jar start.jar

5.验证安装是否正确

带开浏览器在地址兰中输入

http://localhost:8983/solr/admin/

http://localhost:8983/solr/admin/stats.jsp看到如下界面说明安装成功了

6.集成nutch和solr

现在我们已经把solr和nutch都安装好了。nutch也已经抓取了数据。接下来将用solr搜索抓取到的链接。

运行如下命令

cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/

重启solr

运行solr索引命令

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

这个命令将把抓取到的数据发送到solr进行索引。

如果一切进行顺利的话，我们现在可以在 http://localhost:8983/solr/admin/进行搜索了。

如果你想要看到原始的HTML，改变schema.xml文件

六22013 年 6 月 2 日 • By 曹欢欢 • This entry was posted in 搜索引擎 and tagged nutch, solr. Bookmark the permalink.

Nutch 入门

6 参考

Nutch 1.6 入门安装配置（集成solr）

Post navigation

你可能感兴趣的:(Nutch 入门)