任务是:inverted link map
此过程也是比较简单,不过代码好像有点问题。。
1.inverted job
input:将segments下所有segs的parse_data作为输入。<url ,ParseData>
M:将<fromUrl,toUrls> --> <toUrl,fromUrl> list,即倒相了。
C&R:限制同一target url的inlinks数。
output format:MapFileOutputFormat。<url,inlinks>
[2.merged job]
M:<url,inlinks>,即inverted job的输出。对同一url的inlinks进行合并 。
R:同上
NOTE :
发现在inverted job中对norm,filter设置进行了断言:
if(!exists(linkdb)){job.set(norm,true); ...}
觉得代码有点问题,作者愿意应该是要么在inverted job中执行,要么 在merged job中执行,所以应该改为:
if( !exsits(linkdb + "/current")){xxxx}
因为后面还有断言是否存在current而决择 是否进行merged.
------------------
output resutls:
http://163caipiao.blog.163.com/ Inlinks:
fromUrl: http://caipiao.163.com/mobile/main.jsp anchor: 网易博客
fromUrl: http://cp.163.com/ anchor: 网易博客
fromUrl: http://caipiao.163.com/ anchor: 网易博客
http://188vip.vip.blog.163.com Inlinks: //inlinks标识以下所有是inverted urls
fromUrl: http://vipmail.163.com/ anchor: VIP官方博客 //打开此page,会发现其中有"vip官方博客"连接到上面哪个
.....