空闲之余 学习了解了一下nutch 1.5 搜索引擎 觉得这个搜索引擎挺不错的 ,最新的nutch 1.5 我尝试在windows 上安装 不是很成功 ,所以我贴在 Linux上 如何安装,呵呵
1.安装第一步下载软件,如何下载我就不说了,www.apache.org上自己找,
2.下载后 用命令 tar zxvf 包名 解压程序包
3.到解压包的目录下有 执行命令 bin/nutch 执行完后你会看到 Usage: nutch [-core] COMMAND 这样的字样 下面还有很多 Command 的提示 说明你想成功安装走了一步
3.接下来就是配置了 到 解压包的目录下有一个目录 Conf 下面有一个文件nutch-site.xml 里加入如下
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property
这个配置的目的就是为自己的网络爬虫设置名字
4.用命令创建文件夹urls 在文件夹下 创建一个txt文件 seed.txt 或者你自己命名的
在txt文件里你可以加入http://www.sina.com.cn/或者其他你想要抓取的网站链接
5.修改 regex-urlfilter.txt文件 同样在conf目录里 把 +. 替换成+^http://([a-z0-9]*\.)*sina.com.cn/
6.执行bin/nutch crawl urls -dir crawl -depth 3 -topN 5 命令 执行完后你会看到
crawl/crawldb
crawl/linkdb
crawl/segments
被创建
7. 安装Solr 同样首先要下载 Solr 文件 如果下载就不多多说了
8.在Solr 包下找到 example 目录 执行 java -jar start.jar
执行完后 访问链接
http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp
能正常打开说明你安装Solr 成功
9.替换文件 把 nutch下config目录下的schema.xml 文件替换掉 solr 下conf schema.xml 并 加入<field name="content" type="text" stored="true" indexed="true"/> 重新启动 solr 会报错 undefined field text
再加入<field name="text" type="text" stored="true" indexed="true"/>
就没问题了
10.让Solr 能够索引 nutch 执行 bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
11.执行 bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
12. 访问http://localhost:8983/solr/admin/ 就可以使用nutch 搜索引擎了
这个仅仅是 对部分网页搜索的 配置,全网搜索还有继续摸索和学习。
新版nutch 有很多改进,配置和以前有很多不同,希望大家有好的发现 共同学习