最近一段时间利用空余时间学习了一下关于nutch的简单的入门知识.现在看到单机版刚刚结束的地方,再研究下去的话就要涉及到hadoop的相关知识.这篇博客主要分享一下nutch单机版的一点入门知识.
本篇主要说的是nutch1.6版本的.在liunx系统上运行,先从svn中下载下来
如果没有安装svn 可以使用 yum安装 命令如下:
yum install subversion
yum相关的知识可以查看:
http://blog.csdn.net/yiranant/article/details/46482671
安装完svn后可以从apache官方的版本库中下载相关nutch的源码:
svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/
下载完成后,因为仅仅是源码,相关jar包是不包含在其中的,nutch是使用ivy进行依赖管理的,通过ivy来下载nutch的相关依赖jar包
进入release-1.6目录下 进行构建 需要liunx中有ant,没有的话需要安装ant,命令和svn一样使用yum安装
yum install ant
安装完成后在release-1.6目录下 执行 ant命令对工程进行构建 因为是通过镜像下载相关的jar包 可能速度较慢 网上也有更换镜像的方法,大家可以参考
构建完成后还需要设置一个主机的地址才可以使用,不然运行时会报错,执行
vi release-1.6/conf/nutch-site.xml
增加http.agent.name配置
好,现在nutch的整个下载构建流程已经完成 可以使用单机版的crawl命令爬取网址了.