如何把nutch导入myeclipse

 

   如何把整个nutch导入myeclipse

1:准备好nutch的源码开放包,我这里使用的nutch-0.9

2:file->new->java project->从已有的项目导入 然后选择你解压过的nutch文件夹

 

这事需要把conf文件夹修改成Default output folder 方法是右键properties -> java build path >source->  output floder 选择conf确定即可,

 

一般确定以后会把conf中以前的文件清空掉,在重新把nutch压缩包里的conf下的所有文件复制到工程的conf下

千万不要把新生成的配置文件删掉

 

3:还需要另外的两个jar文件 把这两个jar添加到构建路径 结束上附件

[WWW] http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/

[WWW] http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/

 

 

  • 配置nutch

  • 为处理方便,直接在nutch工程下创建一个名为url.txt文件,然后在文件里添加要搜索的网址,例如:http://www.sina.com.cn/,注意网址最后的"/"一定要有。前面的"http://"也是必不可少的。

    2.配置crawl-urlfilter.txt

    打开工程conf/crawl-urlfilter.txt文件,找到这两行

    # accept hosts in MY.DOMAIN.NAME

    +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

    红色部分是一个正则,改写为如下形式

        +^http://([a-z0-9]*\.)*com.cn/
        +^http://([a-z0-9]*\.)*cn/ 
        +^http://([a-z0-9]*\.)*com/

  • 注意:“+”号前面不要有空格。

  • 3.修改conf\nutch-site.xml为如下内容,否则不会抓取。

    <configuration>

    <property>

         <name>http.agent.name</name>

         <value>*</value>

    </property>

    </configuration>

    在conf/nutch-defaul.xml下,将属性"plugin.folders"的值由“plugins”更改为 "./src/plugin" 如何nutch是1.0的则不用修改

     

     

    run-> open run dialog

    显示一个对话框,projcet 选择你新建的工程

    main class 选择 org.apache.nutch.crawl.Crawl

    点击arguments  在program arguments 

     添加 url.txt -dir crawled -depth 3 -topN 50

     如果是nutch-1.0还需要设置vm arguments(虚拟机)的参数

    设置为 -Xms32m -Xmx800m即可

    urls -dir crawl -depth 3 -topN 50
    ( urls是存放入口地址的文件夹(在工程的根目录建新建一个urls的目录,
    里面新建一个文本文件,也可以没有后缀名,在里面填写url 比如: http://www.163.com/),
    -dir创建一个名为 crawl 的文件夹,里面就是我们抓取回来的数据存放地方 

    -depth 3 采集深度 3层 topN 最大页数

     

 

你可能感兴趣的:(虚拟机,.net,xml,MyEclipse,cvs)