初入Hadoop之路

读Hadoop实战摘抄笔记

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce 的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构

Hadoop采用了分布式存储方式,提高了读写速度,并扩大了存储容量采用MapReduce来整合分布式文件系统上的数据,可以保证分析和处理数据的高效.与此同时,Hadoop还采用存储冗余数据的方式保证了数据的安全性.

Hadoop中HDFS的高容错特性,以及他是基于Java语言开发的,,不限于某个操作系统.

Hadoop的优点

1.高可靠性.Hadoop按位存储和处理数据的能力值得人们信赖

2高扩展性.Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便的扩展到数以千计的节点中.

3.高效性.Hadoop能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因而处理速度非常快

4.高容错性 Hadoop能够自动保存数据的各个副本,并且能够自动将失败的任务重新分配

初入Hadoop之路_第1张图片

Core/Common:从Hadoop0.20版本开始更名为Common是为Hadoop其他子项目提供支持的常用工具,它主要包括FileSystem,RPC和串行化库.

Avro:Avro是用于数据序列化的系统.

MapReduce:是一种编程模型.用于大规模的数据集(大于1TB)的并行计算.

HDFS是一个分布式文件系统.由于HDFS具有高容错性的特点.

HDFS的设计目标:

1.      检测和快速回复硬件故障也是核心目标

2.      流式的数据访问.

3.      简化一致性模型

4.      通信协议.所有的通信协议都在TCP/IP协议之上.

Chukwa:是开源的数据收集系统,用于监控和分析大型分布式系统的数据.也昔日带了灵活且强大的工具,用于显示、监视和分析数据结果,以便更好地利用所收集的数据.

Hive最早是Facebook设计的,是一个建立在Hadoop基础之上的数据仓库,他提供了一些用了数据整理,特殊查询,和分析存储在Hadoop文件中的数据集的工具

HBase:是一个分布式的、面向列的开源数据库。主要用于随机访问,实时读写的大数据。

Pig:Pig是一个对大型数据集进行分析和评估的平台


你可能感兴趣的:(Hadoop基础)