nutch的抓取流程 以及 手动实践

inject -> generate -> fetch -> parse -> updatedb


第一个流程为把链接地址注入数据库

   其对应的java 类为 org.apache.nutch.crawl.Injector

实践

./bin/nutch inject data3/crawldb urls/


第二  生成segment。Nutch抓取程序需要抓取到很多的页面,那么具体是哪些页面的?当然,在互联网上是通过URL来定位的。 这一步骤主要是对上一步提交的URL集合进行分析,确定抓取任务的详细信息。

org.apache.nutch.crawl.Generator

./bin/nutch generate data3/crawldb/ data3/segments


第三 分析提交的URL集合之后,将页面内容抓取下来,存于segment目录下。

org.apache.nutch.fetcher.Fetcher

./bin/nutch fetch data3/segments/20130529160808/


第四 内容解析器。抓取到的页面文件被提交到这里,实现对页面文件的处理,包括页面文件的分析和处理。

org.apache.nutch.parse.ParseSegment

./bin/nutch parse data3/segments/20130529160808/


第五 更新数据库

org.apache.nutch.crawl.CrawlDb

./bin/nutch updatedb data3/crawldb/ -dir data3/segments/


图片来自于 杨��川的 视频截图

http://yangshangchuan.iteye.com/blog/1837935

其抓取过程的一些解释 参考于

http://blog.csdn.net/cdl2008sky/article/details/7041411


你可能感兴趣的:(nutch详解)