Hadoop已经发展成为包含多个子项目的集合,虽然核心内容是MapReduce和Hadoop分布式文件系统(HDFS),但Hadoop下的Common、Avro、Chukwa、Hive、Hbase等子项目也是不可或缺的。他们提供了互补性的服务或在核心层上提供了高层的服务,如图所示所展现Hadoop的项目结构图:
1.Core/Common:
从Hadoop 0.20版本开始,Hadoop Core项目便改名为Common。Common是为Hadoop其他子项目提供支持的常用工具,它主要包括FileSystem、RPC和串行化库,他们为在廉价的硬件上搭建云计算环境和提供基本的服务,并且为运行在该平台上开发提供了所需的API。
2.Avro:
Avro是用于数据系列化的系统,它提供了丰富的数据结构类型,快速可压缩的二进制数据格式、存储持久型数据的文件集,远程条用RPC的功能和简单的动态语言集成功能。其中,代码生成器既不需要读写数据文件,也不需要使用或事项RPC协议,他只是一个可选的对静态脚本语言的使用,因为数据连同其模式都是自描述的。
Avro系统依赖于模式(Schema),Avro数据的读和写实在模式之下完成的,这样就可以减少写入数据的开销,提供序列化的速度并缩减其大小。同时,也可以方便动态脚本的语言的使用,因为数据联通其模式都是自描述的。
在RPC中,Avro系统的客户端和服务端通过握手协议进行模式的交换。因此当客户端和服务器段拥有彼此全部的模式时,不同模式下的相同命令、丢失字段和附加字段等信息的一致性问题就得到了很好的解决。
3.MapReduce:
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,“映射(map)”、“化简(reduce)”等概念和他们的主要思想都是从函数式编程语言中借来的。它是的编程人员在不了解分布式并行编程的情况下也能方便的将自己的程序运行在分布式系统上。MapReduce在执行时想指定一个map(映射)函数,把输入键值对映射成一组新的键值对,经过一定的处理后交给reduce,reduce对相同的key下的所有value进行处理后再输出简直对作为最终的结果。
如下图是MapReduce的任务处理流程图,他展示了MapReduce程序将输入划分到不同的map上,再将map的结果合并到reduce,然后进程处理的输出过程:
4.HDFS:
HDFS是一个分布式文件系统。由于HDFS具有高容错性(fault tolerant)的特点,所以可以设计部署在低廉(low-cost)的硬件上。他可以通过提供高吞吐率(high throughput)来访问所应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了可移植操作系统接口(POSIX,Portable Operating System Interface)的要求,这样就可以实现以流的形式访问文件系统中的数据。
nHDFS的设计目标
检测和快速恢复硬件故障。硬件故障是常见的问题,整个HDFS系统由数百台或数千台存储着数据文件的服务器组成,而如此多的服务器意味着高故障率。因此,故障的检测和自动快速恢复是HDFS的一个核心目标。
流式的数据访问。HDFS使应用程序能流式的访问它们的数据集。HDFS被设计成适合进行批量处理,而不是用户交互式的处理。所以它重视吞吐量,而不是数据访问的反应速度。
简化一致性模型。大部分的HDFS程序操作文件时需要一次写入,多次读取。一个文件一旦经过创建、写入、关闭之后就不需要修改了,从而简化了数据性的一致性问题和高吞吐量访问问题。
通信协议。所有的通信协议都在TCP/IP协议之上。一个客户端和明确配置了端口的名字节点(NameNode)建立连接之后,它和名称节点(NameNode)的协议便是客户端协议(Client Protocal)。数据节点(DataNode)和名字节点(NameNode)之间则用数据节点协议(DataNode Protocal)。
5.Chukwa:
Chukwa是开源的数据收集系统,用于监控和大型分布式系统的数据。Chukwa是在Hadoop的HDFS和MapReduce框架之上搭建的,它同时继承了Hadoop的可扩展性和健壮性。Chukwa通过HDFS来存储数据,并依赖于MapReduce任务处理数据,Chukwa中也负债了灵活且强大的工具,用于显示、监视和分析数据结果,以便更好的利用所收集的数据。
6.Hive:
Hive最早是由Facebook设计的,是一个奖励在Hadoop基础之上的数据仓库,它提供了一些用于数据整理、特殊查询和分析存储在Hadoop文件中的数据集的工具。Hive提供的是一一种结构化数据的机子,它支持类似于传统RDBMS中的SQL语言来帮助那些熟悉SQL的用户查询Hadoop中的数据,该查询语言成为Hive QL。于此同时,那些传统的MapReduce编程人员也可以在Mapper或Reducer中通过Hive QL查询数据,Hive编译器会把Hive QL编译成一组MapReduce人物,从而方便MaReduce编程人员进行Hadoop应用的开发。
7.HBase:
HBase是一个分布式的、面向列的开源数据库,该技术来源于Google的论文“Bigtable:一个结构化数据的分布式存储系统”。如果Bigtable利用了Google文件系统(Google File System)提供的分布式数据存储方式一样,HBase在Hadoop之上提供了类似于BigTable的能力,HBase是Hadoop项目的子项目。HBase不同于一般的关系数据库,其一,HBase是一个适合于存储非结构化的数据库,其二,HBase是基于列而不是基于行的模式。HBase和Bigtable使用相同的数据模型。用户将数据存储在一个表里一个数据行拥有一个可选择的将和任意数量的列。由于HBase表示疏松的,用户可以给行定义各种不同的列。Hbase主要用于需要随机访问、实时读写的大数据(Big Data)。
8.Pig:
Pig是一个队大型数据集进行分析和评估的平台。Pig最突出的优势是它的结构能够经受住高度并行化的检验,这个特性让它能够处理大型的数据集。目前,Pig的底层是由一个编译器组成,他在运行的时候会产生一些MapReduce程序序列,Pig的语言层由一种叫做Pig Latin的正文行语言的组成。
本文出自 ““小勇”的博客” 博客,谢绝转载!