hadoop

1,Hadoop简介

    Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布是基础架构。Hadoop是基于java语言开发的,具有很好的跨平台特性,并且可以部署在计算机集群中。


2,Hadoop的特性

    Hadoop是一个能够对大量数据进行分布式处理的软件框架,它有以下几个方面的特性:

    ○高效性。作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效处理PB级数据。

    ○高可靠性。采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。

    ○高扩展性。Hadoop的设计目标是可以高效稳定运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上。

    ○高容错性。采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。

    ○成本低。Hadoop采用廉价的计算机集群,成本低,普通用户也很容易用自己的PC搭建Hadoop运行环境。

    ○运行在Linux平台上。

    ○支持多种编程语言。


3,Hadoop两大核心

    HDFS:是针对谷歌文件系统GFS的开源实现。HDFS在设计上把硬件故障作为一种常态考虑,可以保证在部分硬件发生故障的情况下仍然能够保证文件系统的整体可用性和可靠性。HDFS在访问应用程序数据是,可以有很高的吞吐率,因此对超大的数据集的应用程序而言,选择HDFS作为底层数据存储是较好的选择。

    MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算,它将复杂的,运行于大规模集群上的并行计算过程高度地抽象到了两个函数——Map和Reduce上。完成海量数据的处理。分而治之。


你可能感兴趣的:(hadoop)