Centos7安装大数据平台CDH 6.2

 

Apache hadoop:社区人员比较多,更新频繁比较快,但稳定性比较差,安装配置繁琐,使用者少

Cloudera Hadoop(CDH):Cloudera公司的发行版本,基于Apache Hadoop的二次开发,优化了组件兼容和交互接口、简化安装配置、提供界面统一管理程序。

Apache hadoop :

Hadoop是一个能对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。

  • 高可靠性      

      采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。

  • 高效性         

      作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效的处    理PB级数据。

  • 高可扩展性   

      Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算    机节点上。

  • 高容错性      

      采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。

  • 成本低         

      Hadoop采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的PC搭建Hadoop运      行环境。

  • 运行在Linux平台上

      Hadoop是基于Java语言开发的,可以较好地运行在Linux平台上。

  • 支持多种编程语言

      Hadoop上的应用程序也可以使用其他语言编写,如C++。

 

CDH 提供以下特性:

  • 灵活性:存储任何类型的数据并使用各种不同的计算框架进行操作,包括批处理、交互式SQL、文本搜索、机器学习和统计计算。
  • 集成:在一个完整的Hadoop平台上快速启动和运行,该平台与广泛的硬件和软件解决方案一起工作。
  • 安全:处理和控制敏感数据。
  • 可伸缩性:启用广泛的应用程序和规模,并扩展它们以满足您的需求。
  • 高可用性:稳定地执行关键的业务任务。
  • 兼容性:利用您现有的IT基础设施和投资。

Cloudera Manager 是用于管理cdh集群的端到端应用程序,统一管理和安装。CDH除了可以通过cm安装也可以通过yum,tar,rpm安装。主要由如下几部分组成:

  • 服务端/Server:
    Cloudera Manager 的核心。主要用于管理 web server 和应用逻辑。它用于安装软件,配置,开始和停止服务,以及管理服务运行的集群。

  • 代理/agent:
    安装在每台主机上。它负责启动和停止进程,部署配置,触发安装和监控主机。

  • 数据库/Database:
    存储配置和监控信息。通常可以在一个或多个数据库服务器上运行的多个逻辑数据库。例如,所述的 Cloudera 管理器服务和监视,后台程序使用不同的逻辑数据库。
    Cloudera Repository:由cloudera manager 提供的软件分发库。

  • 客户端/Clients:
    提供了一个与 Server 交互的接口。

你可能感兴趣的:(学习)