Nutch插件开发及发布流程

 一,插件开发流程:

1,Nutch开发客户端环境搭建

2plugin的源代码则保存在/src/java/org/apache/nutch/parse/self/

   类实现实例:

public class CustomizedIndexingFilter implements IndexingFilter {

3,在nutch/plugin下创建index-self目录

4,在index-self根目录下创建build.xml和plugin.xml

5,nutch/plugin根目录下变更build.xml

6,nutch工程根目录下变更build.xml

7,修改nutch-default.xml

  <name>plugin.includes</name>

<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor|self)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>


二,插件发布流程:

一,      用连接客户端工具Xshell4连接到nutch的linux服务器上

命令:ssh 172.37.0.202   输入用户名,密码建立连接

二,上传新开发的插件到nutch的home目录下的{nutchhome}/src/plugin/下

用rz命令或者直接拖拽进去,注意变更各种配置文件(插件开发流程)

三,配置索引项目到{nutchhome}/conf/schema.xml和solr的发布环境目录的{tomcathome}/webapps/solr/collection1/conf/schema.xml

       例:

<!-- fields for self plugin -->

    <field name="outlinkkey" type="string" stored="true" indexed="true" required="true"/>

    <field name="outlinkvalue" type="string" stored="true" indexed="true" required="true"/>

四,重起tomcat服务

     命令:service tomcat6 restart

五,到nutchhome根目录下,重新编译nutch。

>cd /home/apache-nutch-2.2.1/

>ant runtime

六,删除hbase里的webpage及solr服务的data数据源

   删除webpage:

>hbase shell

>disable ‘table’

>drop  ‘table’

删除data数据源:

>rm -rf /var/lib/tomcat6/webapps/solr/collection1/data

七,nutch重新抓取数据

   命令:

   crawl /home/apache-nutch-2.2.1/runtime/local/bin/urls 111 http://172.37.0.202:8080/solr/ 1

八,启动solr服务器端察看

   http://172.37.0.202:8080/solr/#/collection1/query

你可能感兴趣的:(Nutch插件开发)