nutch 02 其它与nutch有关的工具说明

这些框架主要有Lucene、Hadoop、Solr、Tika、Gora、HBase等,其中
Nutch是网络爬虫
Lucene是全文检索工具包
Hadoop是分布式存储与计算
Gora是ORM的大数据版
Tika是内容分析工具包
上面那几个在以前都说过。
Solr是搜索服务器:
是一个独立的企业级应用服务器,它对外提供类似于webservice的api 接口。用户可以通过http 请求,搜索服务器提交一定格式的xml文件,生成索引,也可以通过http get 方式提出查的请求,并得到XML格式的返回结果。
    同时它是一个高性能,采用java 5开发,基于lucene的全文搜索服务器。同时对其进行了扩展,提供了比lucene更为丰富的查询语言,同时实现了可配置,可扩展,并对查询性能进行了优化,并且提供了一套完整的功能管理界面 ,是一款非常优秀的全文搜索引擎,
   
HBase是基于Hadoop的分布式数据库
    HBase(Hadoop DataBase)是一个分布式的,面向列的开源数据库,该技术源于google论文“bigtable:一个结构化数据的分布式存储系统”。就像bigtable,利用了google的文件系统(google file system GFS)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于bigtable的能力,类似google bigtable 利用GFS 作为其文件存储系统,HBase 利用Hadoop HDFS 作为其文件存储系统;google 运行MapReduce 来处理bigtable 中的海量数据,HBase 同样利用Hadoop MapReduce 来处理HBase 中的少海量数据;google Bigtable 利用Chubby 作为协同服务,HBase 利用Zookeeper作为对应,所以它是google bigtable 的实现。HBase是Hadoop的一个子项目。HBase不同于一般的关系型数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是它是基于列的,不是基于行的模式。
    HBase也可以是称之为高可靠性,高性能,面向列,可伸缩的分布式存储系统,利用HBase技术可以在廉价的pc server上面搭建起大规模的结构化存储集群。

 nutch 02 其它与nutch有关的工具说明


由上图可以看出来,HBase 位于结构化存储层,HDFS 为HBase提供了高可靠性的底层存储支持,MapReduce 为HBase提供了高性能的计算能力,Zookeeper 为HBase 提供了稳定服务和failover 机制。pig和Hive 还为HBase提供了高层语言支持,使得在HBase上进行数据处理变得非常简单,sqoop 则为HBase 提供了方便的RDBMS 数据导入功能 ,使得传统数据库数据向HBase中迁移变得非常方便。 

以上这些都是java 开源框架,也许这才是java 的真正价值所在。

 

你可能感兴趣的:(hadoop,搜索引擎,hbase,Lucene,Solr)