1.1 nutch 基本概念

爬行方式

nutch分为intract crawling(IC) and whole web crawling(WWC),其实这两者区别不大,主要是后者使用了step by step的方式来实现,而前者是一个crawl来处理整个procedure,同时有进行pagerank处理功能? 。当然分步进行提供了更多的灵活性(即参数可以控),也便 于观察。

 

WWC实现方式

有内置的DmozParser针对专用urls来生成seed urls;也可以使用类IC方式,提供一个url-seed plat file。

 

crawl procedure

这对于IC或WWC方式都是一样的。

inject -> [generate -> fetch -> updatedb ] -> invertlink -> [index -> dedup -> merge ]

其中粗体表明这是一个可循环的过程,即如果是depth 大于1将进行loop;蓝色表明是一个post oper:对索引进行操作。

 

crawl命令爬行参数说明

-dir 存储爬行結果目录

-depth 从root开始 进行的爬行深度

-topN 达到每个depth前截取top-scoring pages 数,即第n depth时的最大pages number

-threads 一次fetch过程中开启的并发threads

 

测试結果

1.直接查询

 bin/nutch org.apache.nutch.searcher.NutchBean <keyword> [dir-of-crawling]

其中dir是可选的,默认是crawl

bin/nutch org.apache.nutch.searcher.NutchBean 娱乐 output/163csdn/

Total hits: 770
 0 20110604220635/http://ent.163.com/
 ... 更重要 [详细] 娱乐核动力 更多 ... 得其所。 [详细] 娱 ...
 1 20110604220635/http://ent.163.com/tv/
 ... 支招 | 宋丹丹:娱乐圈就要让人 ... 把抗战题材“娱 ...
 2 20110604220635/http://ent.163.com/movie/
 ... 闻 - 体育 - NBA - 娱乐 - 财经 - 股票 - 汽 ... 易首页 > 网易娱乐 ...
 3 20110604220635/http://ent.163.com/music/
 ... 乐_网易娱乐 网易首页 - 新 ... 易首页 > 网易娱乐 > 音 ...
 4 20110604220843/http://bbs.ent.163.com/
 ... 居 欢迎访问娱乐论坛 -娱乐论坛首页 ---站 ... 娱
 5 20110604220843/http://ent.163.com/special/0003000B/moviespecials.html
 ... 页 - 新闻 - 体育 - 娱乐 - 财经 - 汽车 - 科 ... 改为@ 给网易娱 ...
 6 20110604220843/http://ent.163.com/star/
 ... 易首页 > 网易娱乐 > 明星娱乐 搜索 新闻 网 ... 改为@ 给网易 ...
 7 20110604220843/http://ent.163.com/special/00031HA6/ablumcp.html
 ... 易首页 > 网易娱乐 > 网易音乐测评室 搜索 ... 改为@ 给网易 ...
 8 20110604220843/http://ent.163.com/special/00034IG6/tvbaogao.html
 ... 页 - 新闻 - 体育 - 娱乐 - 财经 - 汽车 - 科 ... 改为@ 给网易娱 ...
 9 20110604220843/http://ent.163.com/special/00031HA5/dscb.html
 ... 页 - 新闻 - 体育 - 娱乐 - 财经 - 汽车 - 科 ... 改为@ 给网易娱 ...

 

2.使用web container来查询

将war置于container中来查询

 

 

 

 

references:

http://wiki.apache.org/nutch/NutchTutorial

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

source codes

 

你可能感兴趣的:(apache,Web,音乐,体育,bbs)