将nutch-1.4加载到eclipse中

网络上关于nutch1.4的配置和使用很少,官方网站提供的方法我研究了半天特别麻烦,而且发现弄完后有的依赖包找不到,我决定放弃使用。将这两天关于nutch1.4配置的另一种方法整理一下 仅供参考!如有其它问题欢迎加1277140354一起交流学习!

1、 配置安装JDK省略。我用的是JDK1.6,JDK6官方下载地址:http://www.java.net/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32-windows-i586-p-12_sep_2008.exeJDK1.5 ANT编译的时候会失败

 

2、 下载eclipse省略  地址:http://www.eclipse.org/downloads/

 

3、 Ant安装 使用最新的Apache Ant1.8.3  ApacheAnt 1.8.3 is now available for download as source or binary fromhttp://ant.apache.org/bindownload.cgi.

我个人下载的 解压后的目录为E:\Mysdk\apache-ant-1.8.3

配置Ant环境变量ANT_HOME 、PATH,在系统变量中,点击新建,变量名:ANT_HOME,变量值:



将%ANT_HOME%\bin; %ANT_HOME%\lib添加到环境变量的path中。



Cmd中测试ant指令结果如下说明ANT安装成功可以进行下一步、



4 、安装cygwin所以报错从官方网站下载最新的cygwin

官网地址http://www.cygwin.com/ 下载地址setup.exe

下载后安装







下一步 有错误提示直接忽略



不用选择 默认即可点击下一步





配置一下环境变量

添加 CYGWIN_HOME



在path中添加%CYGWIN_HOME%\bin



 

5、安装nutch1.4 官方网站http://nutch.apache.org/,下载地址http://apache.etoak.com/nutch/我选择的是apache-nutch-1.4-bin.zip    解压后目录为:E:\Mysdk\apache-nutch-1.4-bin

Cmd 到E:\Mysdk\apache-nutch-1.4-bin 执行ant



然后就耐心等待一下吧!



6导入eclipse中新建工程



点击下一步找到conf文件夹 选择Add folder ‘conf’to buid path 我将default output folder设置为Nutch/conf





点击finish

如果一切正常将没有错误

7修改nutch1.4配置信息

(1)    修改conf下nutch-default文件将plugin.folders的值由plugins修改为./src/plugin




(2)     按照官方网站说明在工程目录下建立urls目录在目录下建立txt文件,文件名字随意填写一个网址作为爬虫的目标网址



在conf下配置nutch-site.xml文件<configuration>中加入

<property>

 <name>http.agent.name</name>

 <value>My NutchSpider</value>

</property>




(3)    修改regex-urlfilter.txt将

# accept anything else
+.

处替换为

+^http://([a-z0-9]*\.)*163.com  

表示只抓取www.163.com站内的内容



  • 8 、经过以上配置基本上完成要求。下面看看运行的配置,在Package Explorer中右击工程选择Run asàruncon figurations 在java application下新建

设置main class为 org.apache.nutch.crawl.Crawl

 

  • Arguments选项卡下Program Arguments 中填写
urls -dir crawl -depth 3 -topN 50
  • 在VM arguments 中填写
-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

单击run即可看到运行效果

我这在笔记本上运行出现了错误



 在VM arguments 中加上 -Xms800m -Xmx800m



再次运行

。。。。。。。

你可能感兴趣的:(将nutch-1.4加载到eclipse中)