网络上关于nutch1.4的配置和使用很少,官方网站提供的方法我研究了半天特别麻烦,而且发现弄完后有的依赖包找不到,我决定放弃使用。将这两天关于nutch1.4配置的另一种方法整理一下 仅供参考!如有其它问题欢迎加1277140354一起交流学习!
1、 配置安装JDK省略。我用的是JDK1.6,JDK6官方下载地址:http://www.java.net/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32-windows-i586-p-12_sep_2008.exeJDK1.5 ANT编译的时候会失败
2、 下载eclipse省略 地址:http://www.eclipse.org/downloads/
3、 Ant安装 使用最新的Apache Ant1.8.3 ApacheAnt 1.8.3 is now available for download as source or binary fromhttp://ant.apache.org/bindownload.cgi.
我个人下载的 解压后的目录为E:\Mysdk\apache-ant-1.8.3
配置Ant环境变量ANT_HOME 、PATH,在系统变量中,点击新建,变量名:ANT_HOME,变量值:
将%ANT_HOME%\bin; %ANT_HOME%\lib添加到环境变量的path中。
Cmd中测试ant指令结果如下说明ANT安装成功可以进行下一步、
4 、安装cygwin所以报错从官方网站下载最新的cygwin
官网地址http://www.cygwin.com/ 下载地址setup.exe
下载后安装
下一步 有错误提示直接忽略
不用选择 默认即可点击下一步
配置一下环境变量
添加 CYGWIN_HOME
在path中添加%CYGWIN_HOME%\bin
5、安装nutch1.4 官方网站http://nutch.apache.org/,下载地址http://apache.etoak.com/nutch/我选择的是apache-nutch-1.4-bin.zip 解压后目录为:E:\Mysdk\apache-nutch-1.4-bin
Cmd 到E:\Mysdk\apache-nutch-1.4-bin 执行ant
然后就耐心等待一下吧!
6导入eclipse中新建工程
点击下一步找到conf文件夹 选择Add folder ‘conf’to buid path 我将default output folder设置为Nutch/conf
点击finish
如果一切正常将没有错误
7修改nutch1.4配置信息
(1) 修改conf下nutch-default文件将plugin.folders的值由plugins修改为./src/plugin
(2) 按照官方网站说明在工程目录下建立urls目录在目录下建立txt文件,文件名字随意填写一个网址作为爬虫的目标网址
在conf下配置nutch-site.xml文件<configuration>中加入
<property>
<name>http.agent.name</name>
<value>My NutchSpider</value>
</property>
(3) 修改regex-urlfilter.txt将
# accept anything else
+.
处替换为
+^http://([a-z0-9]*\.)*163.com
表示只抓取www.163.com站内的内容
设置main class为 org.apache.nutch.crawl.Crawl
urls -dir crawl -depth 3 -topN 50
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
单击run即可看到运行效果
我这在笔记本上运行出现了错误
在VM arguments 中加上 -Xms800m -Xmx800m
再次运行
。。。。。。。