原文:http://chucksblog.emc.com/chucks_blog/2013/03/from-databases-to-dataclouds.html
注明:本文内容基于 VMware VSAN beta 版本撰写,请访问http://www.vmware.com/products/virtual-san/获得有关正式版本的更新信息。
我十分荣幸地参加了 Charles Fan 举办的一场精彩绝伦、发人深思的研讨会,Charles Fan 现任 VMware 存储、数据和应用程序部门高级副总裁。
多年来,我从多项工作中认识了 Charles(他的职业生涯引人注目),我总能从他那里获得新颖、精辟的观点。
这一活动本身也非常有趣:它曾经是 EMC 举办的 TAP(技术咨询项目)研讨会之一。
EMC 的各个团队会定期举办小型的非正式论坛,期间会邀请客户与合作伙伴参与就特定主题展开的讨论,让他们听取我们的讲解,最重要的是分享他们的独特观点。
EMC 讲解的时间占20%,而其余 80% 的时间都在倾听,这也正是我非常喜欢此类论坛的原因之一。
本次研讨会不负众望,我们讨论了数据库行业的转变,并希望真正了解客户的现状。
Charles 不辞辛劳地主持了关于数据库和数据管理未来的讨论。会后,我询问 Charles 能否将其演讲的精华与更多人分享,他很有风度地同意了。
希望您能像我一样感受到一股头脑风暴。
核心条件
我们使用信息的方式正在发生根本性的转变:无论称之为大数据、云还是移动 Web 应用程序,总之您使用信息的方式正在经历实质性的改变,因此,在当今世界中,数据管理和数据结构变得非常重要。
但是,如果环顾四周,我们会发现,当今大多数企业 IT 部门都会在传统的关系数据库上投入大笔资金。我们如何才能迈向新世界呢?
Charles 提出了五种力量-- 三种颠覆性力量,两种桥接性力量 -- 使我们有勇气携手打破旧世界,拥抱新世界。
关系数据库 -- 人所熟知的起点
绝大多数结构化信息目前都存储在为人所熟知和喜爱的关系数据库中。关系数据库是一种成熟的技术,这项技术已有 40 多年的历史,它始终表现优异。关系数据库不会立刻消失。
目前,关系数据库可在整个信息工作流中使用:从事务捕获到运营报告再到数据仓储。由于关系数据库必须捕获事务,因此,它们会全程保留 ACID 属性(无论有没有事务发生),丝毫含糊不得!
而在关系数据库基础上开发的应用程序和专业知识生态系统规模庞大,在大多数企业环境下,Oracle 成为这一市场当仁不让的领导者。
由于在应用程序和专业知识方面投资规模很大,数据管理层可能是整个 IT 堆栈中最“拥挤”的部分。旧数据库技术让位于新数据库技术的想法会让大多数人不寒而栗。
此次会议期间,当 Charles 询问“在座各位有多少人在自己的环境中大量使用了 Oracle?”时,所有人都不出所料地举起了手。然后,他问“多少人喜欢Oracle,并希望继续加大使用规模?”。没有一个人举手。
我想 Charles 这样做是为了说明一点:大多数用户已经陷入数据库层拥挤不堪的池沼中,这看上去并不会损害 Oracle 的业务模式,但从大多数客户的角度讲,也并非理想状态。
然而,世界在不断变化。
Charles 随后介绍了五种力量,他相信这五种力量会促使大多数数据管理人员考虑采用新模式(即,所谓的数据云)。毫无疑问,关系数据库仍会继续存在数年(与大型机相同!),但由于以下五个原因,其战略意义势必会减弱。
#1 -- 从CRUD 到 CRAP
您可能很容易接受这两个缩写,但有关它们的讨论却非常审慎。
他的观点是,在关系模式中,任何一件事都是一个事务。您会先创建一条信息,然后由各种应用程序回读该信息,最后该信息会更新,直至最终删除。
创建、读取、更新、删除 == CRUD。就这些,是不是永远都忘不了?
但是,大数据和新的处理模式正在迅速改变现有的模式。除了人类创造的信息海洋之外,一次更强有力的海啸正在向我们袭来:机器生成的信息。
不仅容量打破了传统的关系模式,使用模式也发生了显著改变,Charles 将其称为 CRAP。
在创建信息对象后,该对象会被复制到不同的地方以供复用(也可能是为了进行保护)。您不会对该对象进行更新,只需再附加一点最新信息即可。在大数据环境下,所有信息都会得到处理 -- 您需要关注的是整个历史记录,而不只是最新的值。
创建、复制、附加、处理 == CRAP。我坚信,您肯定不会忘掉这一缩写。
我们可以肯定的是,未来创建的大多数有价值的应用程序都是类似于 CRAP 的应用程序。这些新应用程序需要不同的功能,严格遵从旧的关系模式几乎是不可能的。
关系数据库的牢笼因此会逐渐破解,这一点在大数据环境下已经显现出来,而且它还会不可避免地继续发展。
CRUD 模式不会消失,只是它的影响会逐渐减弱。
#2 -- 数据将无处不在
以前的模式会假定堆栈的所有权属于 IT 部门,数据存放在有限的几个位置,可以实施标准等。种种迹象表明,这种模式正在让位于混合云模式,大量 SaaS 应用程序已随处可见。
不妨这样想:使用类似于 SF.com 等 SaaS 应用程序时,您无法控制数据库层。
如果运气好,您就可以获得高级别的 API,进而从中获得信息,并利用它做些有用的工作。如果新的应用程序要处理此类分散的 SaaS 模式数据,就不得不了解基于 REST 的接口。
此部分似乎是不可避免的。
在创建此类基于 API 的新数据结构时,已经无需再依赖于特定的关系数据库技术。您现在面对的是更高的层面,因此就会很容易使其归入非关系数据提供商的行列之中。
所有人都不再直接谈及数据库。因此,关系数据库的牢笼再一次被削弱。
#3 -- 数据民主化
在信息驱动型的现代业务模式中,“每一个人”都是分析数据产品的贪婪消费者:首席执行官、卡车司机、销售人员 -- 每一个人。甚至许多企业都在积极地向其客户和合作伙伴提供“信息产品”,而这种产品就是信息本身。
现在为人熟知的电子表格和 BI 报告将让位于功能强大的应用程序,这种应用程序几乎可以让所有人都可以对数据见解进行查看和深究并开展协作。每一个人都想以自己独特的方式查看数据,没有人想获得过时的数据,当然也没有人愿意等待数据。
将所有内容都放入数量有限的关系数据库(甚至数据仓库)中,绝对跟不上当今的发展潮流:性能、灵活性、功能、成本等。这种技术的设计初衷也并不在于此。
目前常见的模式(提取、批处理报告和向每个人发送副本)或许不会消失,它只是让位于一种完全不同的模式(实时信息)。
随着企业信息需求的增长,势必会采用新技术来满足新的需求。为人熟知的关系数据库将呈现出日渐衰落的态势。
#4 -- 虚拟化和自动化
IT 行业的虚拟化正在迅速推进。现在,常见的服务器虚拟化已扩展至软件定义的数据中心,甚至生产数据库也会按部就班地完成虚拟化。
但同时也会发生一些重要转变 -- 在这一过程中,资源会作为服务来提供。用户必然会更加关注使用上的方便以及用户体验的简化,而对服务以何种方式提供则不再过多关注:例如,我们为您提供了与 SQL 兼容的数据服务,请尽情享受吧。
在任何虚拟化 ITaaS 模式中,用户是否真的了解(或关心)正在使用何种处理器运行应用程序呢?回答当然是否定的。如果我正在使用数据管理服务,我不会真正关心背后是什么数据库在提供服务。
虚拟化会伴随着自动化。置备、使用和管理不同的数据库会变得更加方便。引入新的数据管理层来解决新问题听起来不再像以前那样需要繁重的工作 -- IT 团队摆脱了有多少资源办多大事的限制。
Charles 将这一点称为“桥接”力 -- 一股有利于双方齐头并进的力量。虚拟化和自动化让传统的数据库环境更易于管理,从而将资源腾出来研究更新、更好的操作方式。
#5 -- 开源
任何成熟的技术都有可能实现商品化,开源的众多成就之一就是让成熟的功能实现商品化。毫无疑问,关系数据库是一项成熟的技术,而市场上也出现了一些不错的兼容替代产品,这些替代产品基于开源构建,并使许多人取得了巨大成功。
即使您由于这样那样的原因决定不采用开源数据库,合理的开源替代产品也会让专有技术倍感价格压力。
看一下 Linux 在不到十年的时间里对专有 UNIX 市场做了什么-- 这几乎已经是一个免费市场。
利润不高 -> 大供应商降低研发、销售和支持的投资成本 -> 客户注意到他们的投资方向不再吸引人,因此这些替代产品获得更多青睐。
但是,正如 Charles 指出的那样,开源还具有另一种有利的影响:由于相关成本非常低,它可以使新的“数据云”技术更易于进行评估和原型设计。
当然,初期在时间、资源等方面的投入仍是必要的,但与评估传统的专有技术相比,这些投入简直就是九牛一毛。因此,开源式 IT 环境相对于以前的环境要简单很多。
综上所述,您会看到,开源就是另一股“桥接”力:它可以借助价格优势为传统的关系数据库带来一定益处,并能够更方便地评估和使用新型数据云,从而为这种新型技术提供了发展动力。
原型大数据系统
Charles 随后分享了一个简化的示意图,展示数据云模式中的各个组成部分是如何汇集交织成新形式信息流的。
从左侧开始,可以看到数据的来源。很多数据都是通过常见的 ETL 流程从传统关系数据库获得的,而更多的数据则来自数量惊人的潜在外部源。
所有数据都以本机格式存储在大数据“槽”中,我们称之为“非结构化大数据文件系统”。我想称之为 HDFS 更有利于理解吧 :)
“信息管道”会沿着这些数据构造而成,以便可以从这些数据中提取有价值的信息,就像一条生产线一样:实时处理、交互式处理、最后到达批量分析。
在实时筛选这些数据流的过程中会部署一套强大的计算能力:筛选、分析和关联。要获得关键洞察力,就必须在数秒内做出决策,而历经数日甚至数周的“深思熟虑”并不可取。
提取数据价值。之后,相同的数据将由另一组重要用户使用:交互式用户。如您所知,这帮讨厌的家伙们会不厌其烦地询问各种数据问题。他们代表着未来的超级用户,因此,我们需要做好准备。他们的使用模式并不难预测:更多的数据、更多的数据源、更多的问题、更多的工具 -- 在他们看来,这些内容的交付速度永远不能满足要求。
在这一过程中提取更多价值。
随后,同样的信息会进行大规模的批量处理(或许需要使用 Hadoop),用更强大的处理能力对规模更大的数据集进行深入的分析。
因此就会提取出更多的价值。
此价值的使用主体可能是 (a) 自主处理洞察力分析的其他应用程序,(b) 要提高决策质量的业务用户,或者 (c) 出售给企业外部人员的增值信息产品。
最后,所有这些都会在某种类型的云上运行,然而,关于这种云并非一种通用云的问题,可能仍会有一番争论:这种云是为支持下一代信息管道的独特需求而专门构建的 -- 我们称之为“大数据”云。
回到这次交流的起点(如目前常见的关系数据库环境),您会发现这种技术已经彻底告别过去。在现在这种模式中,它已经变得毫不相关了,只是众多信息提供者之一而已。
有趣的是:您可以清楚地发现,早期那些信息工厂现在已经利用现有技术投入生产。这些信息工厂拥有许多海量信息订单,在大多数传统企业中您根本无法找到这么多信息。它们使用的聚合计算资源让大多数常见数据中心相形见绌。这些环境一直在飞速发展,它们势必会给了解如何使用它们的人带来无限的价值。
这就是未来的信息工厂,它们可以从海量原始数据中提取价值。或许这些信息工厂可能会在不同地方用到常见的关系数据库技术,但已经没人再真正关注这些内容了。
因为已经时过境迁。
欢迎在微博上关注我,这样在我发布博客文章后您就会收到通知,并可以让您了解更多有关 VMware 存储的信息:@VMware中国
--------------------------------------------------------------------------------------------------------------------------------------------------
作者: Chuck Hollis
近日,ChuckHollis 加入了 VMware,担任存储与高可用性部门首席策略专家。在 Chuck Hollis 的领导下,VMware成功发布了一款领先的软件定义的存储解决方案-VSAN。期间,他将其在存储行业和 IT 生态系统方面的真知灼见引入了VMware。加入 VMware 之前,Chuck Hollis 曾经在 EMC 任职 18 年,担任 EMC 全球营销首席技术官。他喜欢与客户和业内人士探讨各类技术话题。当然,也酷爱写博客。Chuck 与妻子和孩子们共同居住在马萨诸塞州的霍利斯顿。