内容来源：2018年1月30日，VMware大中华区高级技术讲师姚泉在“VMware官方在线直播”进行《VMware云管平台运维管理》演讲分享。IT 大咖说（WeChat_ID：itdakashuo）作为独家视频合作方，经主办方和讲者审阅授权发布。

阅读字数：4068 | 6分钟阅读

观看嘉宾完整演讲视频及PPT，请点击：http://t.cn/ELoBXdO

摘要

跨 SDDC 和多云环境从应用到基础架构的智能 IT 运维管理。与 vRealize Log Insight 和 vRealize Business for Cloud 集成的 VMware vRealize Operations 通过统一监控、自动执行的性能管理、云计算规划和容量优化，可帮助规划、管理和扩展 SDDC 和多云环境。

VMware云管平台

所有的云管平台底层都是要基于软件定义的数据中心。VMware专门提到了软件定义数据中心，就是用软件的方式对底层的基础架构进行虚拟化，包括服务器虚拟化、存储虚拟化和网络虚拟化，分别由不同的产品去实现。

有了这些基础架构之后，对整个数据中心都做了软件定义。那么在上层如何做高效的管理呢？VMware就推出了一个云管平台，叫做vRealize。在这个套件中有很多核心组件，来共同实现平台的自动化管理。其中有三大块内容，一个是自动化部署的vRA，一个是做智能运维的vR Ops，以及做成本分析的vRB，这三块共同支撑起了云管平台。

这期我们重点来介绍vR Ops。

当我们面对一个云计算平台的时候会发现，在云平台中最大的特点就是用户群非常大，尤其是公有云，成千上万甚至有可能会过亿的用户都有可能会请求一些虚拟机去使用。用户在请求这些资源的时候如果要后台的管理员按照传统虚拟机的部署去做批量部署的话，时间会很长，效率也很低。

有了云管平台之后，可以通过特定的组件让用户自助式地请求机器，而平台就会把流程自动化部署出来。这就是通过vRA做机器的自动化部署，使得性能更加高效。

当环境规模很大的时候，机器非常多，如何进行性能的分析、监控，以及故障的管理呢？这就需要一个高智能的软件，这个软件就是vR Ops。

通过vR Ops可以对大规模云平台里的机器进行智能的性能分析。但是作为租户来说，在使用这些云平台资源的时候，每个人用的资源和服务是不一样的，最终成本也有所不同。

为了对用户使用的资源进行智能的成本分析，于是我们做了vRB，让用户知道自己的钱花在了什么地方。

vRealize Operations——云运维智能化

在整个平台中，vRealize Operations实现了性能的管理、容量管理、成本管理、配置管理以及合规性管理。

vRealizeOperations可以对底层的不同平台进行连接，它可以管理虚拟平台、物理平台，甚至可以管理一些云平台。换句话说，整个云管平台其实是跨平台兼容的。

vRealize Operations Manager控制台

我们从6.6开始改版后的一个全新界面，我们引入了一个全新的基于HTML5的用户管理界面。

登录之后如果选择任何一个对象，比如选择一个主机，就能看到这个主机相关的一些性能参数指标。这里有非常重要的三个指标，一个是健康，一个是风险，还有一个就是效率。

登录首页

如果是首次登录Operations Manager，可以看到首页与之前的首页略有不同。

在页面顶部有五个选项卡，分别代表五块核心功能。左侧有一些简单的导航栏，中间则是一些具体的参数信息显示，尤其是当前需要采取的一些行动，这对用户来说是非常关键的。右上角是一些简单的菜单。在这样的界面中用户能得到一个全新的体验。

预定义仪表盘

打开第二个选项卡，就能看到一些核心的功能，也就是预定义仪表盘。在整个环境中，仪表盘非常重要。因为每一个仪表盘里面都会显示出不同的内容、指标和参数。

页面左侧有一些系统自定义的仪表盘，同样可以对这些仪表盘进行管理，比如编辑、新建甚至设为默认页。

警报

在Operations Manager里面，警报是一个智能警报。智能警报不仅可以告诉用户出现了什么问题，还能告知出现问题的原因，甚至能给出解决问题的方案。通过智能警报能让用户直观地了解到系统出现的问题。

环境

在环境中，用户可以针对不同的对象去看到所有的核心指标。在页面右侧有三列绿色图标分别代表着健康、风险和效率，它们的图标形状各不一样。

在Operations Manager中，图标的颜色有四种，绿色、黄色、橘黄色和红色。绿色就表示当前状态一切正常，红色则代表着出现了严重的问题。用户可以通过颜色判断当前环境哪一个业务需要及时进行调整。

查看相关对象

用户可以通过某些特定的对象查看到相关联的对象。在界面中，通过一个对象的点击，就可以看到该对象的其它相关联对象。

查看对象细节

比如点击一个主机，就可以看到该主机关联的虚拟机、存储、网络等等，非常方便地让用户对这些对象有一个初步的了解和认识。点击任何对象，页面右侧就会显示出该虚拟机的参数信息，用户可以通过这些参数信息获取到自己所需的信息。

查看对象关联关系

也可以通过拓补图查看到对象彼此间的关联关系，都是非常智能的。而且很多图表都可以根据用户自身的需求去进行选择。

管理页面

在用户管理的时候可以选择一些具体的参数，管理员能够做到一些集中化的管理。

数据流结构

vRealizeOperations实例包含若干个组件用来收集和传输数据。

vRealize Operations数据库

vRealizeOperations 包含以下数据库：文件系统数据库、集中式vPostgres、警报/症状vPostgres、HIS vPostgres和Cassandra。

安装和配置

第一步要部署一个OVF，因为Operations Manager本身就是一个封装好的OVF模版，把虚拟机下载好直接部署到环境里就可以了。

部署完OVF之后，可以进行一些初始的配置。在配置的时候需要打开相应界面做一些初始化的工作。如果规模比较大，可能会涉及到需要创建数据节点、数据的远程收集节点等等。因为规模大或者要进行跨栈点数据采集的话，只用一个节点不能满足我们的需求，这样就需要一个主节点和备节点，也可能需要一个远程的数据采集节点。

只要部署一个Operations Manager的节点，其实从理论上来说就已经足够了。之后就会进入产品的用户界面去做一些初次的尝试和使用。整个部署过程相对来说并不复杂。

集群规模

在部署的时候可能会涉及到一些集群规模。比如Operations Manager的一个主栈点根据它所管理的对象数量不同，CPU内存的配置也不一样。用户可以根据自身的需求进行选择。

vRealize Operations 6.6 的新特性

更易于使用同时加速产生价值

更简单更易用。新的HTML5的用户界面提供了一个更简单的和一致的体验。

更快捷的导航。全新“入门”仪表盘让你快速定位到需要的地方。

加速诊断恢复，人性化的仪表盘可在一个地方集中提供答案。仪表板被分成类别，如操作、容量和利用率，性能测试、负载平衡、配置和合规。

加速产生价值。开箱即用的集成，例如存储(vSAN), 日志(vRLI), 业务(vRBC) 和自动化(vRA)。

内嵌vSAN管理

完成的vSAN管理。允许集中管理在延伸集群，完整的存储管理能力，包括管理绩效、能力、日志、配置和健康。

从单个控制台确认vSAN准备就绪，完整可视性让vSAN部署更有信心。通过性能和容量监控运维vSAN环境。

SDDC健康概览仪表盘

单一控制台监控整个SDDC的状态。

扩展支持。SDDC-应用-运维-视图及针对每个产品的健康分类；SDDC-应用-组件关联到底层基础设施的健康状态（部署实例及虚机健康一致性）；增强的开箱即用；健康和合规，报警与改进建议。

热图

在Operations Manager中有一个非常重要的功能叫做热图。热图可以实时对比所选虚拟机指标的性能，它一般包含一个或两个指标，一个指标定义图中方块大小，另一个指标定义图中方块颜色。

Project

Project在之前的版本中叫做“what if”。“what if”可以翻译为“假设”，假设将来添加或删除了若干对象，那么资源还能够用多久。

容量模型预测

通过project 功能, 可以快速预测未来资源变化带来的影响。

原始告警-- >智能告警

在原始告警中，只是根据系统的运行状态做一个简单的监控，然后做一些静态的警报触发，这里有一个参数叫做静态阀值。静态阀值指的就是设定一个固定的参数，当监控系统发现这个指标超过阀值的时候就会机械地发出警报。这时用户可能会收到不必要的警报。

动态阀值会智能地分析过去一段时间的历史趋势，并告诉用户在什么时间段达到怎样的峰值状态是正常现象，在其它时间段达到怎样的峰值是不正常现象。这是一个智能的表现。

静态阀值引会起过度告警，而动态阀值能够逐渐学习并识别高负载但健康的状态。阀值根据负载情况和时间段不同会有相应的波动。

减少调查和解决问题的时间

Alerts减少调查问题的平均时间，Recommendations减少解决问题的平均时间。

动态阀值对发现故障有什么意义

传统监控只能设置静态阀值，往往具有误导性。业务高峰期间，VM的资源使用率处于很高的水平是正常的。静态阀值会显得过于敏感，会生成不必要的告警。业务非高峰期间，即使VM资源使用只达到50%，也可能是异常情况，而静态阀值会忽略这类异常。

静态阀值仅考虑上限，而不考虑下限也是不够的。当CPU或RAM的使用率突然降到5%以下，有可能是严重事故的前兆。例如存储延迟突然增大引起的应用响应速度急剧下降，或整个存储的IOPS突然全面下降可能意味着存储机头的严重问题。监控工具也不会做任何提示。

智能工作负载放置

智能工作负载放置功能可以借助DRS决定工作负载放置的最好位置。重平衡功能建议工作负载的迁移位置。

DRS 管理–完成DRS 控制

确保DRS配置。查看DRS设置，满足业务需求。通过参数设置是否激进以及是否完全自动化，可以从vROps中进行修改。

查看vMotion趋势记录有多少是生成环境，以及是否符合预期。

增强了自身负载均衡功能

完全自动化的工作负载平衡。

保证性能，横跨数据中心的全自动工作负载均衡能力。跨集群（Cluster）和数据存储（Datastore）来进行负载均衡；更方便地根据业务需要来控制负载均衡的程度；三种方法来激活负载均衡功能：手动、自动、定时；能强大的仪表盘：监控和调节关于负载均衡的状态和参数；

确保DRS配置，查看和设置DRS设置以获得更好的平衡。

避免争用。在资源争用发生前，产生可预见的DRS 动作。

最佳初始部署。使用vRA，利用运维分析优化工作负载的初始部署位置。

应用案例及常用使用场景

云平台特点

负载动态变迁，运行环境不固定，状态难以跟踪。

配置变化更快，资产生命周期短，统计分析难。

资源动态分配，虚拟机之间既共享又竞争，资源边界弹性化。

新技术，新特性，安全管理新要求。

系统高度融合，组件之间依赖性更高，影响分析难。

用户痛点

1.由于Cloud环境的资源共享和动态配置特性，云环境下的资源管理变得更加复杂难控，资源的惊人浪费和局部资源的紧张情况同时存在存在。

2.安全管理上基本无针对虚拟化环境的管理规范，手段及工具，安全短板问题较明显。

3.资产配置信息缺乏深入及时准确的统计分析，基本靠手工，信息与实际环境偏差较大。

4.缺乏相关分析报表和面板视图，对于云环境较大规模的环境缺乏全局管理能力。

5.虚拟化环境缺乏有效的监控措施，管理被动，问题无法及时发现，出现无法有效分析。

6.缺乏自动化工具，对大规模高度动态环境缺乏足够的响应和控制管理能力。

容量优化

优化资源配置，提高现有资源利用率。发现并回收低效、未使用的容量，发现容量不足和超额配置情况，以便合理调整虚拟机大小、回收闲置资源，在不影响性能的情况下优化整合率和虚拟机密度。

容量规划

vROps借助VMware对vSphere和云计算环境的深入理解，提供了智能的容量分析和规划能力，包括对vSphere虚拟化环境的CPU, 内存, 存储以及网络等资源的现有容量使用情况统计, 容量使用趋势, 进而帮助运维管理人员合理规划虚拟化环境的资源, 避免资源耗尽及资源浪费, 提高虚拟化效率。

配置管理

提供详尽而持续的配置数据收集、配置评估和更改审核，提供统一配置数据报告，帮助用户及时掌握虚拟化环境资产信息。

运行分析

专家报表：提供多种类型的针对虚拟化环境的分析报表。

专家面板：1.从健康，风险，效率等角度综合展示虚拟化环境的整体运行态势；2.提供多指标对比分析热图；3.提供综合虚拟机，网络，存储的拓扑面板展示。

故障管理

全面的指标覆盖：vSphere，NSX，vSAN，结构化数据及非结构化数据，综合指标。

故障分析：动态阈值，综合分析，专家知识。

故障解决：自动化故障处理。

对于Operations Manager，我们还提供了多达100+种扩展管理包，涵盖网络、存储、数据库、中间件和企业应用等多种类型组件。

视频资源

服务质量管理：http://v.youku.com/v_show/id_XMTQ2MDE3OTYzMg==

vSphere合规性：http://v.youku.com/v_show/id_XMTQ2MDAzNTQ0OA==

容量规划：http://v.youku.com/v_show/id_XMTQ1OTUyNjM1Ng==

运营管理：http://v.youku.com/v_show/id_XMTQ1OTk3Nzk3Mg==

我今天的分享就到这里，谢谢大家！

编者：IT大咖说，转载请标明版权和出处

VMware技术专题分享：VMware云管平台运维管理

摘要