CDH平台部署参考手册

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

1. 平台概述

1.1 cloudera架构

CDH平台部署参考手册_第1张图片

如上图所示,Cloudera Manager的核心是Cloudera Manager Server(服务名:cloudera-scm-server),它承载着整个平台的管理控制台和应用程序逻辑,并负责CDH组建的安装、配置、启动服务、停止服务和管理服务集群的运行。

Cloudera组件说明: 
* Agent:安装在每一台主机上,负责进程的启动和停止、配置解压、触发安装,并监控主机。 
* Management Service:由一组服务组成,负责平台的监控、告警和分析报告功能。 
* Database:负责存储配置和监控信息。 
* Cloudera Repository:CDH软件版本仓库。 
* Clients:Clients是与服务交互的接口,包括Web-based UI或API。

Cloudera Manager Server与Cloudera Manager Agent之间通过心跳(Heartbeating)进行通信,Agent 每15秒发送一次心跳给Server,以汇报自己的活动。Server 也通过心跳响应Agent的活动。15秒的频率可以调整。

1.2 CDH概述

CDH平台部署参考手册_第2张图片

2 大数据集群安装及角色分配

以下按照最小规模集群进行角色分配,大规模集群根据情况增加响应的角色实例节点。

在服务器上分配角色时,为了避免接入层交换机的故障导致集群的不可用,需要将一些高可用的角色部署到不同的接入层交换机下。 
(1)关键组件的角色信息 
Cloudera的软件体系结构包含如下模块:系统部署和管理,数据存储,资源管理,处理引擎,工具库以及访问接口。关键组件的角色信息如下:

CDH平台部署参考手册_第3张图片

(2)Cloudera Manager安装 
Cloudera Manager选用1个管理节点安装,Cloudera Manager就安装Cloudera Manager、Cloudera Management Service和MySQL数据库。 
(3)主节点安装 
至少三个主节点,主节点上安装CDH服务的管理节点以及HA组件,在必要的情况下,三个主节点放置在不同的机柜上。可以如下方式部署:

CDH平台部署参考手册_第4张图片

3 网络拓扑

3.1 大数据机房综合建设

CDH平台部署参考手册_第5张图片

3.2 单机架部署

适用于小规模的集群或者一个单个rack的集群。所有的节点都连接到相同的接入层交换机。接入层交换机配置为堆叠模式,互为冗余并增加了交换机吞吐。所有的节点两个网卡配置为主备或者负载均衡模式,分别连入两个交换机。在这种部署模式下,接入层交换机也充当了聚合层的角色。

CDH平台部署参考手册_第6张图片

3.3 多机架部署

在多机架部署模式下,除了接入层交换机,还需要聚合层交换机,用于连接各接入层交换机,负责跨rack的数据存取。

CDH平台部署参考手册_第7张图片

3.4 实际部署样例

在机架上分配角色时,为了避免接入层交换机的故障导致集群的不可用,需要将一些高可用的角色部署到不同的接入层交换机之下(注:是不同的接入层之下,而不是不同的物理rack下,很多时候,客户会将不同物理rack下的机器接入到相同的接入层交换机下)。以下是一个80个节点的物理部署样例。

CDH平台部署参考手册_第8张图片

4 硬件配置参考

集群服务器按照节点承担的任务分为管理节点和工作节点。管理节点上一般部署各组件的管理角色,工作节点一般部署有各角色的存储、容器或计算角色。根据业务类型不同,集群具体配置也有所区别:

4.1 实时流处理服务集群

Hadoop实时流处理性能对节点内存和CPU有较高要求,基于Spark Streaming的流处理消息吞吐量可随着节点数量增加而线性增长。

CDH平台部署参考手册_第9张图片

4.2 在线分析业务集群

在线分析业务一般基于Impala等MPP SQL引擎,复杂的SQL计算对内存容量有较高要求,因此需要配置128G甚至更多的内存。

CDH平台部署参考手册_第10张图片

4.3 云存储业务集群

云存储业务主要面向海量数据和文件的存储和计算,强调单节点存储容量和成本,因此配置相对廉价的SATA硬盘,满足成本和容量需求。

CDH平台部署参考手册_第11张图片

转载于:https://my.oschina.net/gywbest/blog/3054579

你可能感兴趣的:(大数据,python,ui)