云计算不仅仅是虚拟基础设施的快速自助服务。开发人员和系统管理员正在寻找监督和管理规模化云计算的方式。本文是InfoQ关注计算资源动态池自动化工具和想法这一系列文章的一部分。如果您想获取该系列新文章的提醒,可以在这里订阅。
早期的云计算部署通常只涉及一两个员工针对特定实例进行的少量服务器的小规模采用。然而,今天我们看到了对公共云越来越广泛的采用同时,也看到了整个企业的不同员工对跨越所有云服务模式(IaaS,PaaS,SaaS)中大量功能的使用。
从早期阶段的创业公司到世界上最大的企业和政府部门,越来越多的组织扩大了他们对公共云服务的使用规模,规模化云计算也开始呈现出各种问题。
虽然公共云的采用无可置疑地为所有形式和规模的企业带来了非凡的业绩,但公共云也带来了许多新的挑战和风险。其中最重要的有以下几点:
在开始时,我们只允许少数人拥有有限的访问权限,这相对来说比较容易跟踪成本。但是,随着越来越多来自不同部门的个人获取了权限,我们很可能会遇到功能重叠、过度配置、未授权购买、未使用‘僵尸’实例、多余带宽和存储费用,以及其它不必要因素而浪费预期节约的成本。
管理公共云服务的小规模访问是比较容易的,但随着用户的增长,情况很快就会失控。离职员工在离开后可能依然保留有权限;员工权限没有随着角色的变化而更新;与此同时,新员工却在拼命争取他们访问所需资源的权限。由于许多云供应商无法提供企业级安全性,随着对公共云采用的不断增长,我们很快会成为未授权访问的受害者。
比起员工权限控制问题,外部恶意人员对云服务的渗透这一问题则更严重。密码丢失、共享用户ID、数据泄露、口令过简、社会工程、网络钓鱼和恶意软件都将会使公共云服务暴露出数据丢失、操控、攻击、拒绝服务及其他恶意渗透所带来的影响。
当云服务比较小时,可以由个人很容易地管理,但随着他们的扩展和规模化,我们不能总是通过添加新员工来维护管理。这就意味着更少的人需要干更多的活,根据平均定律,最终总会有人犯错误。尽管该问题并不局限于云计算,但反过来它还是会造成大规模的故障。
当你只有几个精心管理的服务时,只有一两个人就可以看到部署在哪里,知道配置方式、费用、使用方式、拥有者、问题原因、如何解决问题、什么时候关闭服务、如何恢复等。但是在大规模系统中,随着各种公共云部署的扩展,以及对更多用例开放访问,云使用会变得越来越不透明。
由于差的可见性,其后果之一是问题定位会明显变难。比如如果你看不到系统是在哪里运行或如何与其它服务连接的,就几乎不可能定位事务流程中在哪里速度放慢了。在系统思考方面具有领导智慧的W.Edwards Deming说过“我们无法管理无法衡量的东西”,但更确切地说,我们无法管理不可见的事务。
与此同时,差可见性还带来了另一个副作用:随着更多的系统和服务从云中抽象出来,追踪每个人的访问内容、时间、方式和原因为审计带来了严重的问题。如果没有工具自动化相应流程,能够在大规模环境下跟踪、记录,及查看访问、修改、失败、曝光、使用等功能会变得异常艰难。
尽管严重的宕机并非云平台独有,但似乎每个礼拜我们都会听到公共云失误的各种戏剧化故事。然而,许多云供应商,尤其是大宗商品服务,并未构建可恢复性;甚至某些更健壮的服务也可能不提供实时恢复或优先考虑用户的商业需求。如果没有用于备份、故障转移和恢复的备用系统的话,宕机将是个真正的灾难。
解决这些问题的方法之一就是将IT自动化。当然,自动化并非万金油;而且自动化坏的流程也只会导致坏事将发生得更快,更无法控制而已。但是,如果实施得当的话,各种形式的自动化工具将允许我们在扩展公共云部署的同时,避免大量上述问题。
例如:
此外,自动化开始给公共云带来传统手动形式根本不可能提供的新功能。比如:以类似DevOps这样的新方式加快了大规模应用程序的交付,而DevOps可以说只可用于以下这些解决方案:自动服务开通、配置管理、测试自动化和发布自动化。同样,如果没有用于自动化的API权限、身份管理、资源使用和成本控制的解决方案的话,大规模利用新兴云API经济所带来的令人难以置信的机会只会有最高风险和最大灾难。
所有这些自动化工具和原则都属于公共云部署中的最佳实践。如果不理解任意一个给定部署目标和约束的话,简单地罗列出最佳工具显然是不合适的。不过,其中一些肯定相对于于更多的部署来说更为重要,如果我需要选择三个的话,我会选择:
自动化功能是公共云存在不可或缺的条件。尽管部分基本自动化功能会包含于任何不错的云服务中,比如:自动服务开通、使用度量或退款。
但是,如我在前面提到过的,我们几乎没有机会可以从云供应商那里获取复杂的自动化功能,尤其是大宗商品的云服务。
因此我们要自己去理解采用公共云所带来的机会和风险,根据我们的工作量和目标选择正确的的服务供应商,并为其补充相应的自动化工具。
只有集成正确的自动化解决方案,才能提供和增强信心、安全、性能、速度和控制,从而真正发挥出公共云的全部潜能。
Andi Mann – CA Technologys的CTO办公室副总裁,是位颇有成就的数字商务高管。作为一名战略家、技术专家、创新者、营销员和传播者,Andi拥有丰富的全球化专业知识。他有着超过25年横跨五大洲的工作经验,Andi是个抢手的顾问、评论员和演讲者。Andi还撰写过两本书,其博客为‘Andi Mann – Übergeek’,twitter帐号为@AndiMann。
云计算不仅仅是虚拟基础设施的快速自助服务。开发人员和系统管理员正在寻找监督和管理规模化云计算的方式。本文是InfoQ关注计算资源动态池自动化工具和想法这一系列文章的一部分。如果您想获取该系列新文章的提醒,可以在这里订阅。
查看英文原文:The Top Automation Tools for Public Cloud at Scale