原文:http://chucksblog.emc.com/chucks_blog/2013/06/what-storage-might-look-like-in-five-years.html
注明:本文内容基于 VMware VSAN beta 版本撰写,请访问http://www.vmware.com/products/virtual-san/获得有关正式版本的更新信息。
有时,我会让质疑我的人真正跳出条条框框来思考问题,将目光放得更远些,不再局限于通常的 12-24 个月预测周期,推测那时会是什么情况。
当我发起这个挑战时,屋子里总是陷入一阵尴尬:销售代表略微扭动一下身体,因为我们显然正在脱离预定的脚本,自由发挥,发问者的同事看起来稍显尴尬,或许我会窒息,等等。
为什么?几乎没有一个 IT 供应商(包括EMC 在内)会对那么遥远的未来有什么正式看法 -- 但这恰恰是它成为一个好问题的原因。
简单地挥挥手,根据众所周知的趋势进行推断,都不是很好的响应方式。要把工作做好,您必须找出当前话题以外的不太明显的趋势,讨论它们如何以新颖的方式进行互动,以及思考技术以外的问题。
您还必须擅长即兴发挥:)
我认为任何人都不会指望您能猜对一星半点。它是一次思维锻炼,仅此而已。而且,尽管 2018 年看起来还很遥远,但未来很快就会到来。
明确地说,这些都是我的个人观点,EMC 可能赞同也可能不赞同。我不保证任何观点会变成现实。几个月后再问我,我很可能会给您一个不同的答案。
有了所有这些一般免责声明,我们来做一下深入分析。
为什么事实可能比表象更贴切
显然,我们正在步入信息时代 -- 它是 21 世纪的原材料。受此影响,我们的社会和经济正在彻底改变 -- 改变速度可能快于任何人的预期。
那些重新发现的珍品 -- 信息 -- 必须存在于某个地方:我们要在很长一段时间内,捕获、处理和保留海量信息。
这正是存储的意义所在。网络传输信息,处理器改变信息,但信息必须存在于某个地方。
默认假设
我完全可以预期,在大数据、内容库、富数据协作模式以及 -- 没错 -- 还有物联网的驱动下,过去大约 30-40% 的存储容量增长速度将开始进入 50-60% 这个区间(甚至更高)。
需求增长将继续超过技术和运营发展速度(我相信,计算和网络也同样如此),这意味着我们都将不可避免地花更多的钱来存储和检索信息。
如果您打算在信息时代蓬勃发展,您就需要获得相关的工具。
随着数据量和应用实例呈指数级增长,引力将大显身手(向 @mccrory 致敬),为我们的思维增加新的维度。由于延迟,大量的数据想靠近它们的应用,而应用想靠近用户。
克服物质世界中的距离的学科通常被称作物流学;而在信息时代,我们越来越关心信息物流学,也就是在合适的时间和地点,以合适的成本提供合适的信息。
有时,应用需要离信息更近一些,有时却恰好相反。
尽管我们正在谈论应用 -- 众所周知的信息使用者 -- 但我们不再对过去的应用与“它们的”信息之间的 1:1 关系感兴趣。
信息将为许多潜在的应用使用者生成;而且应用将使用来自许多潜在来源的信息。我们能够为既定数量的信息找到的用途越多,信息就变得越有价值。
结果,关于信息管理的经典想法开始被重新构想。设想一下,信息自由汇入一个大“数据湖”,并在这个大“数据湖”中使用,而没有各种缠绕在一起的熟悉的适配器和网关。
重新想象物理存储
我们大都将物理存储想成装有专用硬件的大机架:闪烁的指示灯,嗖嗖的气流,无处不在的线缆等等。
再深入一些,您会发现一些熟悉的组成部分:行业标准存储介质、计算、内存、端口、互连等 -- 以及一个非常复杂的存储操作系统。
目前出现的一个新兴领域是以不同方式对存储软件进行再情境化:使用客户购买的商品硬件,而不是存储供应商提供的硬件。
尽管熟悉的预先打包好的阵列使用模式有自己的明显优势,但基于软件的存储模式同样也有 -- 而且在未来五年内,我预计,随着更多的信息迁移到软件定义的存储上来,基于软件的存储模式会更加普遍。
尽管一些基于软件的存储模式的支持者会指出,商品硬件预计可节省可观的硬件成本,但照我看来,这不是真正的优势。基于软件的存储模式可提供极具吸引力的易于使用的模式,潜在的易于管理的模式,以及只需更改运行的软件即可赋予存储资产新的用途的能力。
无论物理存储表现为一个阵列、一系列带软件的服务器还是某种组合,我都认为我们会在未来几年内看到清晰的存储角色划分:事务性能与容量和带宽。
为什么?我们正在进入一个信息总是比以往利用的多的时代。
第一步与即时操作有关:事务、决策等。想一想大量的闪存、内存数据库、靠近服务器等。第二步是随后的检索和利用,乃至更多:分析、内容等 -- 想一想那么大的旋转磁盘池,明智地将闪存用作加速剂。
尽管存储架构有很大的潜力能够在这两个方面表现良好,但新兴信息使用模式的极致需求往往会推动对架构的自然分割 -- 当然全部是横向扩展架构。
SDN(软件定义的网络连接)概念势必会进军存储领域并带来深刻的影响,因为存储的几乎每一个方面都涉及网络。
对于横向扩展架构来说,节点之间会存在互连。应用服务器和存储服务器会通过网络进行通信。当我们开始跨越一定距离将我们的数据池桥接在一起时,我们需要更多的网络连接。
过去,存储网络技术(任何形式的)一直都是死板、脆弱的固定设计。SDN 显示了使存储网络技术具备高适应性和灵活性的各种可能 -- 以及与其他形式的SDN 网络连接轻松共享存储相关流量的各种可能。
随着处理器越来越快,支持越来越多的核心,我们会看到功能更加强大的与存储关联的数据服务,远远超出我们今天通常所能想象到的范畴:重复数据消除只是一个最近的示例。
重新想象逻辑存储
那么,如果我们重新描绘存储处理边界,我们还需要按类似的方式重新描绘存储可以做和不可以做的边界。
大多数人开始把存储服务看作“读取”和“写入”。有道理。
现在新增了分层和 QoS 概念。新增了数据保护和可用性。各式各样令人称奇的克隆、快照和增量日志。重复数据消除和压缩。或许有一些淡化距离的联合服务。一些不同的数据呈现:块、文件、对象、HDFS。
实际上,在 EMC 的 ViPR 中发现的一些更加有趣的概念主要是针对“一个数据副本,多种呈现”方面的。这是您的块数据、文件数据、对象数据、HDFS 数据、图形数据等。数据如何呈现是应用希望看到的功能,而不是您购买的哪种存储设备。
但是,还有另一种趋势值得关注…
我注意到的一个事情是 -- 随着时间的推移-- 有用的信息服务往往“漂流”到基础架构中。这意味着,我们可以看到熟悉的信息服务,它们通常在应用层执行,现在却有可能在“漂流”,以便更加靠近让其变得有意义的信息。
一个最近的例子是观察到的某类 Hadoop 和传统 DW 实施:它们基本上都含有大量的存储,只有少许应用计算位于顶部。Hadoop 是一个计算群集还是一个专用存储群集?
如果您不确定,我可以预测物料清单中最大的行项目是什么…
存储阵列没有理由不能存储和呈现数据,例如以 SQL 格式。
随着企业需要更多的分析,您不得不从原本并不作为数据来源的应用收集数据。
如果您愿意,可以称其为 ETL,它的确正在创建一个向分析湖输送新鲜信息的管道。将数据收集视为存储功能,而非在某处的服务器上运行的定制代码,是否有意义呢?
稍等一下,存储阵列已经知道何时将数据放在两个地方(即复制)。如果它们了解应用数据格式,它们是否有可能帮助创建一个向决策环境输送事务数据的实时管道呢?
有点神秘的历史?许多年前,EMC 推出了一个创新产品:InfoMover。理念很简单:通过使用共享存储阵列,您可以从 UNIX 打开和查询您的大型机事务数据,而不会影响大型机应用。
这个产品我们确实没有卖出很多,但对于实施了这款产品的用户,他们在将事务数据输送到决策支持环境方面获得了惊人的收益。
而且,当我们正在讨论增值存储服务时,为何不考虑底层搜索呢?存储没有原因不聪明地对待不同类型的应用数据、文件格式等内容。
Google 堪称传奇的搜索引擎是一个计算场,还是一个非常复杂的存储架构?界线肯定会变模糊。
发挥您的想象。
想一想今天每个人利用应用领域中的信息做的事情,并将其重新设想为潜在的存储功能。
我敢打赌,在未来五年里,我们将看到一些看似不着边际的理念变得司空见惯。我们可能会更多地看到存储作为信息管理层,而不是所有 1 和 0 的倾倒场。
重新想象存储协调。
存储团队似乎更善于创建和交付他人可以使用的服务,无需他人亲力亲为。存储服务的使用者可以获得策略选择、相关成本信息以及美观、融合的门户,以便查看各项工作的进展 -- 实质上这是“沿着堆栈向上”传递责任。
通常,下一个控制点会变成虚拟化团队,或者融合基础架构团队。但他们还是在做相同的事情,将服务和门户公布给开发人员、应用所有者和 DBA:通过更高级别的抽象和相关上下文。
尽管我们绝不会放弃了解存储正在做什么这一需求(无论它的物理或逻辑边界如何),但所有繁重负载都将迁移到堆栈中的其他地方,以便进行策略定义和闭环监控与衡量。
SDS(软件定义的存储)的一个关键方面是推动以协调的方式向一系列可编程服务转型的进程:策略下放,管理信息上移。存储服务会与诸多其他应用服务统一起来,具有动态、可调用、可重新配置、可监控等特点。
重新想象存储使用
让我们摆脱整个“云”,可以吗?
存储跟随着工作负载,工作负载走到哪里,存储就会跟到哪里。如果外部服务提供商使用更多的工作负载,存储就会走到外部服务提供商那里。如果更多的工作负载停留在数据中心里,相关存储就会停留在数据中心里。除了一些特别专业的应用实例,存储和应用都喜欢彼此靠近 -- 仅仅是由于性能原因。
更有趣的是围绕容量规划和置备的 IT 理念的潜在变化。我见过许多不假思索就提出增加计算容量,但明显讨厌添加更多存储容量的 IT 公司。
或许这源于我们存储供应商与他们打交道的方式。或许他们认为这么做无法充分利用 IT 资金。或许是因为太难,或许…,我不太确定。
我知道的是,当前和未来的应用模式都希望按需获取存储服务:容量、性能、可用性、呈现等等。就像它们需要计算和网络和…,这个过程大家应当十分熟悉才对。
没有人希望等着 IT 小组走遍他们的传统流程…
那是五年前了
一个有趣的练习是后退五年,看看我们那时在做什么。我可以回去,阅读我在那时写的博文,非常清楚发生了多大的变化。请不要回去阅读那些博文,有许多是非常糟糕的:)
熟悉的术语,像云、大数据、移动性、X 即服务等等-- 当时还不是主流行话。绿色 IT、SOA、ITIL 和数据仓库非常流行。虚拟化 -- 以 VMware 的形式 -- 令 IT 人员非常兴奋,VDI 还是一个崭新的事物。Amazon 的 AWS 是一个有趣的珍品,仅此而已。
IT 团队过度专注于降低所有成本 -- 当时经济衰退刚刚开始 -- 而且对成为业务促成者,变得更具战略意义,创建用户希望使用的服务等,不是特别感兴趣。
在存储前沿,第一批企业闪存驱动器进入市场,人们不是很清楚能利用它们做什么。重复数据消除开始在备份领域(Avamar、DataDomain)流行起来,但还没有向主要存储进发。存储博客非常火爆,大家辩论着是 iSCSI 还是 FCoE 将征服世界。
2013 年,我们坐在这里回忆过去,那仿佛是一个遥远的世界,但的确不是很久远。
就像 2018 年不是很遥远一样…
欢迎在微博上关注我,这样在我发布博客文章后您就会收到通知,并可以让您了解更多有关 VMware 存储的信息:@VMware中国
--------------------------------------------------------------------------------------------------------------------------------------------------
作者: Chuck Hollis
近日,ChuckHollis 加入了 VMware,担任存储与高可用性部门首席策略专家。在 Chuck Hollis 的领导下,VMware成功发布了一款领先的软件定义的存储解决方案-VSAN。期间,他将其在存储行业和 IT 生态系统方面的真知灼见引入了VMware。加入 VMware 之前,Chuck Hollis 曾经在 EMC 任职 18 年,担任 EMC 全球营销首席技术官。他喜欢与客户和业内人士探讨各类技术话题。当然,也酷爱写博客。Chuck 与妻子和孩子们共同居住在马萨诸塞州的霍利斯顿。