hadoop 学习历程二

阅读更多

hadoop生态圈:

Common 一组分布式文件系统和通用i/o的组件接口(序列化,java rpc 和持久化数据结构)

Avro 一种支持高效,跨语言的RPC以及永久存储数据的序列化系统

MapReduce 分布式数据处理模型和执行环境,运行于大型商用机集群

HDFS 分布式文件系统 运行于大型商用机集群

Pig 一种数据流语言和运行环境,用以检索非常大的数据集。比如运行在MapReduce和HDFS集群上

Hive 一个分布式,按列存储数据库。Hive管理HDFS中存储的数据,并提供基于sql的查询语言(运行时引擎翻译成MapReduce作业)用以查询数据。

Hbase 一个分布式,按列存储数据库。Hbase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)

Zookeeper 一个分布式、可用性高的协调服务。Zookeeper提供了分布式锁之类的基本服务用于构建分布式应用

Sqoop 在数据库和HDFS之间高效传输数据的工具

-----------------------------------------------------------------

hadoop  2.0.3 和网上介绍的版本有点不一样

它的config文件是在etx里面。startall 是在sbin里面

 

 

你可能感兴趣的:(hadoop 学习历程二)