vmware7+ubuntu12.04
1,下载文件nutch1.5http://mirror.bjtu.edu.cn/apache/nutch/1.5/
solr3.6:http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.0/
2,解压,bin/nutch需要添加可执行权限,执行后显示 Usage: nutch [-core] COMMAND
3,配置nutch:
conf/nutch-site.xml
创建文件夹urls,假如文件seed.txt,在文件内加入要爬取的网站:http://www.sina.com.cn/
修改conf/regex-urlfilter.txt末尾的+.为+^http://([a-z0-9]*\.)*sina.com.cn/
执行命令bin/nutch crawl urls -dir crawl -depth 3 -topN 5,生成
crawl/crawldb
crawl/linkdb
crawl/segments
4,在solr目录下找到example/start.jar,执行 java -jar start.jar
访问
http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp
5,复制nutch目录下conf/schema.xml到solr目录下example/solr/conf/,并加入:
<field name="text" type="text" stored="true" indexed="true"/>
确保重启solr不报错,否则加入<field name="content" type="text" stored="true" indexed="true"/>
6,索引刚刚使用nutch下载的文件:
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
7,边下载变索引命令:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
8,访问http://localhost:8983/solr/admin/,这只是部分网页搜索的配置
更多详细内容参考:
http://www.cnblogs.com/skyme/archive/2012/06/13/2548239.html