nutch 配置文件详解

下面来分析 一下,conf目录下各文件的作用是怎样的:

crawl-urlfiter.txt :此文件名在crawl-tool.xml中配置,属于crawl命令专有的配置,即分布式抓取 时不起作用。

regex-urlfilter.xml :此文件在分布式抓取时将代替crawl-filter.txt,see nutch-defulat.xml

--上述解析类见RegexURLFilter--

其中加载顺序为: nutch-default.xml->crawl-tool.xml->nutch-site.xml

 

automaton-urlfilter.txt:有限状态机处理,Finite-state automaton

 

prefix-urlfilter.txt & suffix-urlfilter.txt :对url进行前缀或后缀的过滤,使用nutch 中的trie tree 算法简介 处理

由于在regex-urlfilter.txt已经有过滤,而这二个是比它添加了更加多的过滤条件而已,所以可以将二个添加到plugin.includes中。

 

common-terms.utf8:作为n-gram索引时的common terms,即独立的token。应用于NutchDocumentAnalyzer#ContentAnalyzer.(我已经修改为highlight时才使用)

 

custom-fields.xml:当使用CustomFieldQueryFilter时定制的index处理机制。

 

domain-suffixes.xml:域名配置,由DomainSuffixes.java使用,供Generator中进行host/domain/ partition。

 

domain-urlfilter.txt:类urlfilter,就是进行域名过滤。利用这一点,可以进行特定站点的抓取,如只抓取com.

内容可以是ip,域名,二级域名(subbfix),hostname;used in DomainURLFilter

 

httpclient-auth.xml:当使用http client plugin时的配置文件。就是如果要使用到https来抓取或代理服务器来抓取时,可以使用这个plugin。

 

parse-plugins.xml :之前已经介绍过,即解析各种文件时的影射plugins配置。

 

regex-normalize.xml :用于将url进行norm,即url 替换。如去掉";jsessionid=x",去掉重复&&等。used by RegexURLNormalizer.

 

--- solr index/search related files(我没有使用solr来索引)

schema.xml:solr的index配置文件;

solrindex-mapping.xml:nutch中的index filed对solr的映射

----

tika-mimetypes.xml :tika mime type映射文件,比如根据url获取对应的content type .used by MimeUtil

 

subcollections.xml:对索引进分集(添加doc field以示区别),支持白名单/黑名单。比如,我想统计.com域名的page数,但我要过滤掉部分.com的urls,而且要匹配xx.com域名的urls.可以说,它提供了粒度很细的过滤统计功能。

 

 

--下面是运行的文件--

nutch-xx.jar:nutch core包;

nutch-xx.job:将nutch作crawl或search service时完整包;除了里面没有hadoop包外,其它的与nutch-xx/lib下的包一样。有点怪:)

nutch-xx.war:布署包,与job包类似,已经包含jar所有类及配置,和hadoop包。

 具体这些包问题可以在相应的build.xml中配置

 

----

以上红色部分是较重要的files.

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(Nutch)