[Nutch]查看Nutch生成目录下的具体内容

在上一篇博文里面对nutch爬虫在抓取数据的时候产生的目录进行的说明,那么这写目录文件里面的内容如何才能查看呢?本篇博文将详细为你介绍查看具体内容的方法。

我们先来看下nutch相关的命令:
[Nutch]查看Nutch生成目录下的具体内容_第1张图片
从上图我们可以知道,nutch提供了很多命令帮助我们来了解当前的情况。

1. readdb

主要用于read/dump crawl db。而readdb也有很多参数可以选择:

(1)-stats
使用-stats来看出具体的状态:
[Nutch]查看Nutch生成目录下的具体内容_第2张图片
从这个统计信息可以看到:

  • 总共的URL为:7941个;
  • retry 0次的url:7941个;
  • 最小的分数为:0;
  • 最大的分数为:1.0;
  • 平均的分数为:2.749024E-4。
  • unfetched的为:6601;
  • fetched的为:1258;
  • 临时重定向redir_temp为:69;
  • 永久重定向redir_perm为:13;

(2)-dump
使用dump参数可以查看整个数据库。执行如下命令:

bin/nutch readdb data/crawldb -dump data/crawldb/crawl_dump

执行此命令之后会生成一个文本文件:
这里写图片描述
其中的内容大致如下:
[Nutch]查看Nutch生成目录下的具体内容_第3张图片
主要存储的就是url以及其状态和相关的信息。

(3)-url
打印具体url的情况。
这里写图片描述

(4)-topN
把制定数目的url根据分值进行排序。
这里写图片描述
也会生成一个文件:part_0000,其内容如下:

2. readseg

主要用于查看segments目录下面子目录里面的内容。参数如下:
[Nutch]查看Nutch生成目录下的具体内容_第4张图片

(1)-dump
查看对应的文本内容。

bin/nutch readseg -dump data/segments/20160423200417/ data/segments/20160423200417_dump -nocontent -nogenerate -noparse -noparsedata -noparsetext

[Nutch]查看Nutch生成目录下的具体内容_第5张图片

(2)-list
使用如下的命令:

bin/nutch readseg -list -dir data/segments

结果如下:
这里写图片描述

(3)-get
查看segment中某一特定URL的状况,输入所有和他相关的内容。使用如下命令:

bin/nutch readseg -get data/segments/20160423200417 http://blog.tianya.cn/

结果如下:
[Nutch]查看Nutch生成目录下的具体内容_第6张图片

3. readlinkdb

读取linkdb里面的数据。相关参数如下:
这里写图片描述

(1)-dump
dump出相关的内容。命令:

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump

运行之后会生成一个文本文件part-0000:
这里写图片描述

part-0000的具体内容如下:

[Nutch]查看Nutch生成目录下的具体内容_第7张图片

(2)-url
查看具体url相关信息,命令如下:

bin/nutch readlinkdb data/linkdb -url http://bbs.tianya.cn/list-1018-1.shtml

输出结果如下:

到这里,关于查看Nutch生成目录(crawldb/linkdb/segments)的3个对应的命令(readdb/readseg/readlinkdb)已经介绍完毕,你会了吗?

你可能感兴趣的:(爬虫,Nutch,readdb,readseg,readlinkdb)