Nutch1.7学习笔记6:ParseSegment源代码分析

Nutch1.7学习笔记6:ParseSegment源代码分析

作者:雨水,时间:2013-11-17 博客地址:http://blog.csdn.net/gobitan

ParseSegment分析

ParseSegment类的结构相对要简单一些,与Injector等在内部类中实现map和reduce的方式不同,它直接在类中实现。

 

核心方法解析:

map方法的功能包括:

(1)   检查URL对应的Content是否抓取成功,如果没有直接返回,否则继续;

(2)   检查Content的内容是否为truncated以及parser.skip.truncated参数的值。如果内容为truncated状态并且该参数值为true(nutch-default.xml默认为true),则直接返回,否则继续;

(3)   调用解析工具类ParseUtil去解析抓取的内容,具体解析过程后面会详述。解析后返回的结果是一个叫ParseResult的类型。这个类型包含被解析内容对应的原始URL和一个装有解析结果的map集合。map里的类型为<Text,Parse>。Text存放被解析内容的URL,Parse接口的实现里包含了三部分信息:ParseText,ParseData和一个boolean值表示原始URL和被解析的URL是否相等。其中ParseText存放解析出来的文本,ParseData里包含了解析的其他结果,如title, outlinks, MetaData和ParseStatus等。然后执行所有预置的过滤器对解析结果进行过滤。

(4)   根据content内容计算MD5摘要。

(5)   执行scorefilter,具体有待进一步分析:TODO。

reduce方法:基本没干什么活

parse方法:Hadoop的job配置及提交运行。

   FileInputFormat.addInputPath(job, new Path(segment,Content.DIR_NAME));

   job.set(Nutch.SEGMENT_NAME_KEY, segment.getName());

   job.setInputFormat(SequenceFileInputFormat.class);

   job.setMapperClass(ParseSegment.class);

   job.setReducerClass(ParseSegment.class);

   

   FileOutputFormat.setOutputPath(job, segment);

   job.setOutputFormat(ParseOutputFormat.class);

   job.setOutputKeyClass(Text.class);

   job.setOutputValueClass(ParseImpl.class);

涉及到的重要类:ParseOutputFormat和ParseImpl

 输出格式类ParseOutputFormat分析

按照特定的格式处理HTMLParse解析后的结果,并输出到文件系统中。具体细节待分析:TODO!

输出值类型类ParseImpl分析

ParseImpl相对简单,该类主要包含了页面解析后的结果及文件的写入和读取。解析结果前面已经解释了,由ParseText和ParseData构成。

解析过程详解:

ParseUtil工具类会根据内容的Content-Type匹配合适的解析类,一般的html页面通常采用org.apache.nutch.parse.html.HtmlParser类。这里采用了延迟加载的方式,也就是只有需要用到的时候采取实例化。实例化后的解析器放在一个Vector集合中的。

HtmlParser解析器也是调用的第三方的解析库,是通过nutch-default.xml中的parser.html.impl参数来配置的。目前支持NekoHTML和TagSoup两种。默认配置采用的是CyberNeko HTML Parser.在http://nekohtml.sourceforge.net/可以找到Neko解析器的详细介绍及源代码。解析后返回的是一个DocumentFragment对象,它是一个XML的DOM树。具体格式可参见http://www.w3school.com.cn/xmldom/dom_documentfragment.asp。 也就是说解析第一步就是将html文档解析为XML格式的DOM树,然后Nutch提供一个从DOM树中提取各种数据的工具类DOMContentUtils,再在此基础上提取需要的信息。

提取信息的时候,Nutch提供一个NodeWalker,该类允许以栈而不是递归的方式来访问DOM树。NodeWalker访问DOM树的时候,会忽略script,style和COMMENT_NODE类型的节点。

你可能感兴趣的:(Nutch,网络爬虫,源代码分析,ParseSegment)