Nutch下载及构建

最近一段时间利用空余时间学习了一下关于nutch的简单的入门知识.现在看到单机版刚刚结束的地方,再研究下去的话就要涉及到hadoop的相关知识.这篇博客主要分享一下nutch单机版的一点入门知识.

本篇主要说的是nutch1.6版本的.在liunx系统上运行,先从svn中下载下来

如果没有安装svn 可以使用 yum安装 命令如下:

yum install subversion

yum相关的知识可以查看:

http://blog.csdn.net/yiranant/article/details/46482671

安装完svn后可以从apache官方的版本库中下载相关nutch的源码:

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/  

下载完成后,因为仅仅是源码,相关jar包是不包含在其中的,nutch是使用ivy进行依赖管理的,通过ivy来下载nutch的相关依赖jar包

进入release-1.6目录下 进行构建 需要liunx中有ant,没有的话需要安装ant,命令和svn一样使用yum安装

yum install ant

安装完成后在release-1.6目录下 执行 ant命令对工程进行构建 因为是通过镜像下载相关的jar包 可能速度较慢 网上也有更换镜像的方法,大家可以参考

构建完成后还需要设置一个主机的地址才可以使用,不然运行时会报错,执行

vi release-1.6/conf/nutch-site.xml

增加http.agent.name配置


好,现在nutch的整个下载构建流程已经完成 可以使用单机版的crawl命令爬取网址了.













你可能感兴趣的:(hadoop,Nutch,Solr)