上: Serengeti虚拟化应用
下: Serengeti管理服务器的系统架构(即本文)
Serengeti管理服务器的系统架构
Serengeti管理服务器包括几个重要的模块:Serengeti Web Service,Ironfan Service,Chef Server,Package Repository和vHadoop Runtime Manager。这里会简单介绍各个模块的功能。
Serengeti管理服务器的系统架构图
Serengeti Web Service
Serengeti Web Service是Serengeti的工作流控制中心,提供对外的RESTAPI,外部客户端可以通过REST API访问所有Serengeti提供的功能。
这是一个运行在Tomcat之上的Web Service,大量使用了SpringFramework提供的各种功能,包括使用Spring Batch进行Workflow的控制,Spring Security保证用户安全性,Spring MVC提供REST API,以及集成Hibernate进行内部数据的管理。
Web Service同时集成了vCenter Extension的注册和管理。在Serengeti部署完成之后,注册成为vCenter的扩展服务器。负责和VC的通讯,VC 会话的管理,虚拟机的创建,配置和管理。
在Web Service中,一个重要的功能就是虚拟机的分布计算(Virtual Machine Placement)。
在虚拟化环境之下,用户提出的请求通常都是创建多少个node,可用的资源有哪些,比如那些主机(host),那些存储(datastore)可以使用。那么在这些要求之下,我们面对的一个问题抽象来说,就是在n个host之上,创建m个VM,每个VM的硬盘,网络有一定的要求。
在这个命题之下,Serengeti为了满足hadoop对资源使用的特殊要求,开发了一些通用的分布算法。比如典型的应用是在可用host之上平均分布。这样就保证Hadoop的节点不会分布在同一台host之上,为数据的可靠性提供了基础。
为了满足数据和计算能力的分离,Serengeti还提供了节点关联的策略。具体来说就是在每台host之上,同时放置m个节点,其中k个是存放数据的节点,j个是进行计算的节点。并且满足k+j=m的条件。
之后的文章中会详细介绍Serengeti支持的VM placement算法,以及适合的应用场景,在此不做详细讨论。
Chef Service
Chef是当前流行的分布式软件配置管理工具,在数据中心管理运维中广泛使用。例如Facebook和Amazon都是Chef的用户。Serengeti在虚拟机创建完成之后,使用Chef的脚本进行hadoop软件的安装和管理。
Serengeti包含一系列Chef脚本,支持多个hadoop发行版的安装和配置,包括Hadoop1.x,Hadoop2.x,和HBase。这些脚本都预先安装在Chef Server之上。
Chef Client组件预先安装在Serengeti创建的虚拟机之中。当虚拟机创建完成之后,Chef Client将会从Chef Server下载并运行相应的脚本,真正完成Hadoop的安装和配置工作。
Ironfan Service
Ironfan是基于Chef的Hadoop 集群部署和管理工具。在Web Service完成虚拟机的创建之后,负责控制整个Hadoop集群的软件安装,和配置工作。
Web Service会把整个集群的虚拟机信息,包括虚拟机的名字,ip地址,需要安装的Hadoop组件(比如namenode,jobtracker)等信息传递给Ironfan。
而Ironfan将会调用Chef提供的Knife命令行工具,和Chef Server提供的REST API,把所有节点的信息提供给Chef Server,并且通过SSH远程启动集群中所有虚拟机之上的Chef Client,以便在每一个节点上安装和配置软件。
除此之外,Ironfan还会×××安装运行的进展情况,实时报告给Serengeti Web Service,以确保用户在集群创建过程中,直观看到各个虚拟机的软件安装进度。
Chef和Ironfan都是用Ruby开发的工具,我们为Ironfan专门开发了Thrift Service,使Serengeti Web Service可以直接通过RPC方式来调用Ironfan,而不需要通过Java的本地调用来执行Ironfan的命令行。
之后会有专门的文章详细介绍Ironfan和Chef,以及他们在Serengeti中所起的作用。
Package Repository
Package Repository的设计使得Serengeti不再绑定任何的hadoop发行版,用户可以在Serengeti中自行安装自己需要的hadoop发行版,之后就可以用Serengeti灵活创建需要的hadoop集群。
Package Repository可以包含Hadoop不同发行版的安装包,CDH3/CDH4,MapR,PivotalHD,GreenPlum HD 和Hortonworks Data Platform。以方便用户指定使用哪种发行版。
Chef 脚本中包含了Hadoop软件的下载和安装指令,它可以从Serengeti内置的Package Repository之上下载安装包,也可以到指定的URL去下载。当然如果需要连接到外网下载,虚拟机需要连接外网的权限,或者配置httpproxy。
vHadoop Runtime Manager(HRM)
HRM提供了集群的弹性伸缩功能。它会监听Hadoop 任务的运行情况和VC资源使用情况,动态调整集群的计算功能,以满足用户对虚拟机共享资源的高级需求。比如调整Hadoop集群对资源使用的优先级,保证高优先级的任务优先完成等等。
在虚拟化的环境中,VC的DRS就提供了资源动态调整的功能,保证某些虚拟机获得更多的资源,来完成高优先级的任务。但是在Hadoop集群的应用场景中,对整个集群的资源使用进行优化调整就是HRM的任务。
Serengeti Web Serivce和HRM之间通过RabbitMQ进行通信。用户也可以在Serengeti的客户端发起手动调整资源的命令。这个命令就是通过RabbitMQ传递给HRM的。
在这里需要强调的一点是HRM的功能只有在BDE,也就是Serengeti的商业版中提供。
之后的文章会对HRM的功能和算法进行详细的讨论。
担任VMware大数据产品vSphere BDE、Serengeti开源项目的技术带头人,引领和参与Serengeti核心架构与功能的设计和研发,经历Serengeti自问世以来的6个版本的研发和发布。长期致力于通过vSphere BDE/Serengeti使VMware虚拟化基础架构成为大数据应用的最好选择。在VMware之前,就职于BEA/Oracle软件开发中心,长期从事分布式系统的开发、设计工作,拥有丰富的企业软件开发经验。