nutch其他命令

1、 大merge和3大read命令阐释--用来合并内容进行空间压缩

bin/nutch   grep merge

bin/nutch  |  grep read

bin/nutch  mergesegs  data/segments_all  -dir  data/segments

2、 反转链接 --生成linkdb

bin/nutch  invertlinks  data/linkdb  -dir  data/segments

3、 解析页面--一个测试抓取解析方法

bin/nutch  parsechecker  http://blog.csdn.net/sqh201030412/article/details/50287145


4、 域统计

bin/nutch  domainstats  data2/crawldb/current  host  host

bin/nutch  domainstats  data2/crawldb/current  domain domain

bin/nutch  domainstats  data2/crawldb/current  suffix suffix

bin/nutch  domainstats  data2/crawldb/current  tld  tld

5、webgraph

bin/nutch webgraph -segmentDir data2/segments -webgraphdb data2/webgraphdb

有相同inlinksURL,只输出topn

bin/nutch nodedumper -inlinks -output  inlinks -topn 1 -webgraphdb data2/webgraphdb

有相同outlinksURL,只输出topn

bin/nutch nodedumper -outlinks  -output  outlinks -topn 1 -webgraphdb data2/webgraphdb 

有相同scoresURL,只输出topn条(初始分值全为0

bin/nutch nodedumper -scores  -output scores -topn 1 -webgraphdb data2/webgraphdb 

计算URL分值

bin/nutch  linkrank  -webgraphdb  data2/webgraphdb 

再次查看分值

bin/nutch nodedumper -scores  -output scores –topn 1 -webgraphdb data2/webgraphdb 

对结果进行分组,取最大值或是连加和(topn参数不参与)

bin/nutch nodedumper -group domain sum -inlinks -output inlinks_group_sum  -webgraphdb data2/webgraphdb 

bin/nutch nodedumper -group domain max -inlinks -output inlinks_group_max  -webgraphdb data2/webgraphdb

url进行分组,分组方式可选择为host或是domain,对同一组的url执行topn限制,对执行了topn限制的url集合执行max或是sum操作,maxsum所针对的排序值是3种方式之一inlinksoutlinks以及scores

6、注入分值

bin/nutch  readdb  data2/crawldb  -dump  crawldb_dump

cat  crawldb_dump/*  |  grep  Score  |  sort  |  uniq

bin/nutch  scoreupdater -crawldb data2/crawldb -webgraphdb data2/webgraphdb

7、轻量级抓取 

bin/nutch  freegen  urls  data3/segments









你可能感兴趣的:(命令,Nutch,其他)