下面来分析 一下,conf目录下各文件的作用是怎样的:
crawl-urlfiter.txt :此文件名在crawl-tool.xml中配置,属于crawl命令专有的配置,即分布式抓取 时不起作用。
regex-urlfilter.xml :此文件在分布式抓取时将代替crawl-filter.txt,see nutch-defulat.xml
--上述解析类见RegexURLFilter--
其中加载顺序为: nutch-default.xml->crawl-tool.xml->nutch-site.xml
automaton-urlfilter.txt:有限状态机处理,Finite-state automaton
prefix-urlfilter.txt & suffix-urlfilter.txt :对url进行前缀或后缀的过滤,使用nutch 中的trie tree 算法简介 处理
由于在regex-urlfilter.txt已经有过滤,而这二个是比它添加了更加多的过滤条件而已,所以可以将二个添加到plugin.includes中。
common-terms.utf8:作为n-gram索引时的common terms,即独立的token。应用于NutchDocumentAnalyzer#ContentAnalyzer.(我已经修改为highlight时才使用)
custom-fields.xml:当使用CustomFieldQueryFilter时定制的index处理机制。
domain-suffixes.xml:域名配置,由DomainSuffixes.java使用,供Generator中进行host/domain/ partition。
domain-urlfilter.txt:类urlfilter,就是进行域名过滤。利用这一点,可以进行特定站点的抓取,如只抓取com.
内容可以是ip,域名,二级域名(subbfix),hostname;used in DomainURLFilter
httpclient-auth.xml:当使用http client plugin时的配置文件。就是如果要使用到https来抓取或代理服务器来抓取时,可以使用这个plugin。
parse-plugins.xml :之前已经介绍过,即解析各种文件时的影射plugins配置。
regex-normalize.xml :用于将url进行norm,即url 替换。如去掉";jsessionid=x",去掉重复&&等。used by RegexURLNormalizer.
--- solr index/search related files(我没有使用solr来索引)
schema.xml:solr的index配置文件;
solrindex-mapping.xml:nutch中的index filed对solr的映射
----
tika-mimetypes.xml :tika mime type映射文件,比如根据url获取对应的content type .used by MimeUtil
subcollections.xml:对索引进分集(添加doc field以示区别),支持白名单/黑名单。比如,我想统计.com域名的page数,但我要过滤掉部分.com的urls,而且要匹配xx.com域名的urls.可以说,它提供了粒度很细的过滤统计功能。
--下面是运行的文件--
nutch-xx.jar:nutch core包;
nutch-xx.job:将nutch作crawl或search service时完整包;除了里面没有hadoop包外,其它的与nutch-xx/lib下的包一样。有点怪:)
nutch-xx.war:布署包,与job包类似,已经包含jar所有类及配置,和hadoop包。
具体这些包问题可以在相应的build.xml中配置
----
以上红色部分是较重要的files.