1、 大merge和3大read命令阐释--用来合并内容进行空间压缩
bin/nutch | grep merge
bin/nutch | grep read
bin/nutch mergesegs data/segments_all -dir data/segments
2、 反转链接 --生成linkdb
bin/nutch invertlinks data/linkdb -dir data/segments
3、 解析页面--一个测试抓取解析方法
bin/nutch parsechecker http://blog.csdn.net/sqh201030412/article/details/50287145
4、 域统计
bin/nutch domainstats data2/crawldb/current host host
bin/nutch domainstats data2/crawldb/current domain domain
bin/nutch domainstats data2/crawldb/current suffix suffix
bin/nutch domainstats data2/crawldb/current tld tld
5、webgraph
bin/nutch webgraph -segmentDir data2/segments -webgraphdb data2/webgraphdb
有相同inlinks的URL,只输出topn条
bin/nutch nodedumper -inlinks -output inlinks -topn 1 -webgraphdb data2/webgraphdb
有相同outlinks的URL,只输出topn条
bin/nutch nodedumper -outlinks -output outlinks -topn 1 -webgraphdb data2/webgraphdb
有相同scores的URL,只输出topn条(初始分值全为0)
bin/nutch nodedumper -scores -output scores -topn 1 -webgraphdb data2/webgraphdb
计算URL分值
bin/nutch linkrank -webgraphdb data2/webgraphdb
再次查看分值
bin/nutch nodedumper -scores -output scores –topn 1 -webgraphdb data2/webgraphdb
对结果进行分组,取最大值或是连加和(topn参数不参与)
bin/nutch nodedumper -group domain sum -inlinks -output inlinks_group_sum -webgraphdb data2/webgraphdb
bin/nutch nodedumper -group domain max -inlinks -output inlinks_group_max -webgraphdb data2/webgraphdb
对url进行分组,分组方式可选择为host或是domain,对同一组的url执行topn限制,对执行了topn限制的url集合执行max或是sum操作,max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。
6、注入分值
bin/nutch readdb data2/crawldb -dump crawldb_dump
cat crawldb_dump/* | grep Score | sort | uniq
bin/nutch scoreupdater -crawldb data2/crawldb -webgraphdb data2/webgraphdb
7、轻量级抓取
bin/nutch freegen urls data3/segments