CM+CDH 整体介绍

1. 概述

        大数据平台的开发环境搭建,我们前面已经说过了,需要搭建Hdfs,Yarn,Spark,HBase,Hive,ZK等等,在开发环境下搭建是用于开发测试的,全部部署在VM 虚拟机里面,小数据量小运算量还可以,数据量运算量一旦上来,虚拟机是玩不转的,这就牵涉到生产环境的Hadoop的生态搭建,难道也需要我们一步一步来搭建吗? 几台还可以,那么上百台呢? 难道也需要一台台搭建吗? 显然不可以,有没有什么好的Hadoop生态的搭建工具呢? 国外有俩家企业做了这些事,hortonworks公司推出的Ambari+HDP套件 和 Cloudrea公司推出的 CM+CDH 套件,不过这俩家公司 18年底合并了,不过这并不影响我们的使用。
    
2. CM+CDH介绍
    CM是Cloudrea Manager的简称,是Cloudrea 提供的生产环境的Hadoop 生态部署工具,工具套件为CM+CDH,CM负责监控动态管理及部署Hadoop生态服务,CDH里面包含了绝大多数的Hadoop生态中的服务,包含Hdfs,Yarn,ZK,Hive,Hbase,Flume,Sqoop,Spark等。整体上与前面说所得Ambari + HDP类似。
    CM+CDH有免费版和收费版,收费版当然功能更加强悍,比如支持回滚,滚动升级,支持Kerberos,SAML/LDAP支持,SNMP支持,自动化备份和灾难恢复,不过在我们看来,免费版已经够我们使用了。
    
    这里简单和Ambari + HDP对已一下,CDH在部署Hadoop生态上,整体与HDP类似,通过WEB端动态部署Hadoop生态,
    Name              Web        Server        Tools
    hortonworks    Ambari    HDP            HDP-Util
    Cloudrea         CM          CDH            CDH-Util
    
    CM+CDH套件组成
        CM:WEB应用程序,后台为Ambari Server,负责与HDP部署的集群工作节点进行通讯,集群控制节点包括Hdfs,Spark,Zk,Hive,Hbase等等。
        CDH:HDP包中包含了很多常用的工具,比如Hadoop,Hive,Hbase,Spark等
        CDH-Util:包含了公共包,比如ZK等一些公共组件。
        
3. CM+CDH 部署

         前面我们说过传统的Hadoop的生态部署方式,非常繁琐,容易出错,不易监控,动态部署难等诸多问题,也讲了Ambari+HDP环境的部署,接下来我们讲一下 CM+CDH的部署,这里也是简单说一下需要部署的整体步骤,具体步骤后面会出详细的操作文档。
    CM+CDH部署与Ambari+HDP 部署方式比较大的区别就是:不需要配置Httpd及本地Yum源,CM服务起来之后在部署Hadoop生态时,会首先选择CDH包存放的地址,然后根据你所选择的服务,进行下发同步到不同的工作节点。
    
    集群及工具准备
    1. 三台机子,配置为静态IP
    2. JDK,MySql-Server,MySql-Client,MySql-Connect包
    3. CM包,CDH包,CDH-Util包
    
    集群部署:
    1. 单节点:java,selinux,hosts,hostname,ip
        修改yum源地址,一般指定为国内yum源地址,可以为阿里
    2. 克隆节点,修改ip及hostname 
    3. 安装mysql,配置免密登陆
    4. CM Server安装及初始化(数据库初始化)
    5. CM Server 通过向导安装集群
    6. CM 使用介绍    
    

    上面是对CM+CDH的一个整体介绍,后面会逐步细化里面的一些流程,争取说的根据明了,后面还会出一个具体的操作手册,是对这一部分的补充。
    
    提示:CM+CDH 这种部署方式对集群要求比较高,比如CPU,内存,硬盘的条件,单单CM+CDH安装包就有7G左右,所以只是想在虚拟机里面部署玩一玩,基本是跑不起来的,还没等跑起来,CPU,内存就报表了,本地测试机的配置很高,请忽略上面我所说的。在生成环境还是可以去尝试这部署试试的。

你可能感兴趣的:(Spark,Hadoop)