01. Nutch 1.11 安装使用步骤 (初步例子完成)

下载安装 (需要下载bin的zip版本, 否则bin目录下没有 运行脚本)
http://www.apache.org/dyn/closer.lua/nutch/1.11/apache-nutch-1.11-bin.zip

解压放入Documents目录下

  1. 检查是否安装 解压成功
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11$ bin/nutch 
    

01. Nutch 1.11 安装使用步骤 (初步例子完成)_第1张图片
bin/nutch

Perl wdxxl@ubuntu:~/Documents/apache-nutch-1.11$ bin/crawl
01. Nutch 1.11 安装使用步骤 (初步例子完成)_第2张图片
bin/crawl

  1. 配置Nutch (在conf/nutch-site.xml加入http.agent.name的属性)
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11$ gedit conf/nutch-site.xml
    
01. Nutch 1.11 安装使用步骤 (初步例子完成)_第3张图片
gedit conf/nutch-site.xml
  1. 定义seed URLs
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin$ mkdir -p seed_urls
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin$ cd seed_ urls/
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin/urls$ touch seed.txt
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin/urls$ echo http://wdxxl.github.io/ >seed.txt
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin/urls$ cat seed.txt
    
seed.txt
  1. 爬虫
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin$ ./crawl seed_urls crawl_dir 1
    或
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin$ ./crawl seed_urls crawl_data 3 (这样至少wdxxl.github.io可以取完全集)
    
01. Nutch 1.11 安装使用步骤 (初步例子完成)_第4张图片
./crawl
  注意可能linux的文件修改还是会影响crawl的内容,比如如下信息
  ````Perl
  wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin/seed_urls$ rm seed.txt~
  ````
  1. 检查状态 crawldb
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin$ ./nutch readdb crawl_dir/crawldb/ -stats
    
01. Nutch 1.11 安装使用步骤 (初步例子完成)_第5张图片
./nutch readdb crawl_dir/crawldb/ -stats
  1. 导出数据到文件 (少了一点信息,主要是爬虫的 Num Round 只选择了1而已吧)
    wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin$ ./nutch readdb crawl_dir/crawldb -dump output/crawldb
    
./nutch readdb crawl_dir/crawldb -dump output/crawldb

01. Nutch 1.11 安装使用步骤 (初步例子完成)_第6张图片
part-00000
  1. 启动Solr服务器 solr-4.10.4.tgz
    solr的schema文件准备
    wdxxl@ubuntu:~$ cp ~/Documents/apache-nutch-1.11/conf/schema.xml ~/Documents/solr-4.10.4/example/solr/collection1/conf
    

开启solr服务器 (默认solr4.10.4自带一个collection1)

开启solr服务器

关闭solr服务器
关闭solr服务器

爬虫结果 导入 Solr
Perl wdxxl@ubuntu:~/Documents/apache-nutch-1.11/bin$ ./nutch solrindex http://localhost:8983/solr/ crawl_dir/crawldb -linkdb crawl_dir/linkdb/ crawl_dir/segments/*
Solr 服务器页面查询
01. Nutch 1.11 安装使用步骤 (初步例子完成)_第7张图片
Solr 服务器页面查询

Luke 打开solr数据文件
01. Nutch 1.11 安装使用步骤 (初步例子完成)_第8张图片
Luke 打开solr数据文件

你可能感兴趣的:(01. Nutch 1.11 安装使用步骤 (初步例子完成))