随着云计算和大数据的发展,传统的基于主机的存储架构已逐渐向网络化、虚拟化、海量云存储发展,从分散走向集中,存储的性能、效率和扩展性、灵活性被企业普遍关注。从更高层次看,存储不仅需要提供数据的管理、数据复制、快照、镜像、迁移等例行性事物,更要能处理数据的灾难恢复、数据一致性、虚拟化融合、弹性计算与资源扩展等工作,这些都依赖于良好的存储架构来满足。
结合企业的IT建设,我们可以把存储架构的演变归纳为三个阶段。
第一个阶段是存储基本架构的演进过程。
在企业建立初期,用户的数据规模并不大,存储需求也相对简单。我们一般是采用DAS直连存储的架构方案。这种存储方案的服务器结构如同PC机架构,外部数据存储设备(如磁盘阵列、磁带机、光盘机等)都直接挂接在服务器内部总线上,数据存储设备是整个服务器结构的一部分。DAS的这种直连方式可以解决单台服务器的存储扩展、高性能传输需求,同时可以构建基于磁盘阵列的双机高可用系统,满足数据高可用的需求。但由于这种存储技术是把设备直接挂在服务器上,随着需求的不断增大,越来越多的设备添加到网络环境中,导致服务器和存储独立数量较多,资源利用率低下,使得数据共享受到严重的限制。因此适用在一些小型网络应用中。
随着企业的发展,应用的复杂度不断加大,需要在不同操作系统间共享文件和应用,并提高性能和存储的扩展性。NAS存储技术改进了DAS存储技术,通过标准的拓扑网络,可以无须服务器直接与存储设备连接,不依赖于通用的操作系统,所以存储容量可以很好的扩展,对于原来的服务器性能也没有任何的影响。但是NAS不适合数据库存储(不适合I/O密集型应用),另外传输速率低成为瓶颈。
在企业中,某些核心应用对性能和可靠性有更高的要求,但是NAS存储技术方案的传输速度和效率是有限的。FC技术出现后,SAN存储网络得到了快速发展,在企业中得到了很好的应用。SAN存储区域网采用高速光纤通道作为传输体,突破传统网络的瓶颈,在服务器与存储设备之间直接高速数据传输,满足了企业对更高性能和可靠性的需求。SAN的架构更适合高端应用领域。
第二个阶段是大集中到存储整合、虚拟化统一的过程。
企业中的各个信息系统建设起来后,一般都是由各个业务部门进行具体管理的。对于一个集团公司来说,企业非整合配置中的数据中心处于不同地点且有各自的存储子系统。这些存储子系统相互独立,并且每个地点只能访问自己的存储子系统。每个地点都需要熟练的员工来进行存储管理,在数据中心的每一处还需要进行机器维护,这些都增加了企业存储的总体拥有花费。那么,为了统一管理,在企业持续发展的中期阶段,需要将分散的数据资源、IT存储资源进行大集中,形成规模化的数据中心基础设施。但是由于前期存储设备采购不规范,大集中面临不同存储设备的兼容和异构统一问题,于是存储虚拟化技术应运而生。
存储虚拟化屏蔽了不同物理设备的异构性,通过对存储(子)系统或存储服务的内部功能进行抽象、隐藏或隔离,使存储或数据的管理与应用、服务器、网络资源的管理分离,从而实现应用和网络的独立管理。它是一种贯穿于整个IT环境、用于简化相对复杂的底层基础架构的技术,其核心技术思想就是将资源的逻辑映像与物理存储分开,从而为系统和管理员提供一幅简化、无缝的虚拟资源管理视图。
结合两大知名厂商的存储虚拟化解决方案,我们分析一下存储虚拟化的架构图。
IBM的SVC技术
EMC的VPLEX技术
不管是SVC还是VPLEX,这种存储虚拟化的架构都有以下三个特点:
1、SAN网络环境下增加一层虚拟化引擎,对服务器的操作系统和后端存储子系统透明。通过虚拟化引擎将多个后端不同厂商、不同型号的存储设备上磁盘系统的容量整合为一个单一的“存储资源池”,并通过虚拟化引擎控制台做存储资源的简化管理。同时虚拟化引擎也可以有多个 Cluster 节点组成,来保证自身的高可用性。
2、通过增加控制节点来方便水平扩充(scale-out)。不管是SVC还是VPLEX,通过扩展控制器节点个数可以增加性能,而往存储池中增加磁盘则可以增加容量,这两方面的扩张都可以在线完成,不需要中止应用。
3、以磁盘阵列架构进行存储架构的纵向扩展。虚拟化引擎后端的中高端存储设备均可以在纵向上继续扩展。
(注:存储虚拟化可以在三个不同的层面上实现:基于主机的虚拟化在主机服务器上实现;基于存储网络的虚拟化,需要在SAN网络中添加虚拟化引擎的支持来实现;基于存储设备、存储子系统的虚拟化,依赖于提供相关功能的存储模块或第三方的虚拟软件。一般而言,基于主机的容易耗费服务器资源,基于存储设备或存储子系统的虚拟化其扩展性有限,而基于存储网络的虚拟化最受关注,因为存储网络拥有能够支持连接到网络中的任何服务器平台或任何存储设备的能力。)
第三个阶段是云存储发展阶段。
伴随着云计算的大数据时代的到来,将存储作为云的服务提供,不论是企业私有云还是公有云的存储,都着重于大量存储数据的创建和分布,并将服务作为IT的核心,从而提升业务的敏捷性,进一步降低成本。
在技术上,分布式文件系统、分布式对象存储等技术,为云存储的各种应用提供了高度可伸缩、可扩展和极大的弹性支撑和强大的数据访问性能,并且因为这些分布式技术对标准化硬件的支持,使得大规模云存储得以低成本的建设和运维。
云存储架构是为了应付高速成长的数据量与带宽而产生的新形态存储系统,因此云存储在构建时重点考虑的三点:扩容简便、性能易于增长、管理简易。
IBM的XIV被业内称为革命性的新一代存储架构,它是采用了大规模并行的分布式网格存储技术,采用的网格存储架构的好处就是横向扩展(Scale-out)。XIV网格存储的横向扩展(Scale-out)具有“自优化”的特性,不依赖任何主控制器,而是全部采用处理能力和存储能力紧耦合的网格单元,所以整个系统的扩展是性能和容量同步线性增长,在增加到一定程度以后,再使用第二个机架,乃至第三、第四个……理论上是可以继续线性扩展下去的,这就是云存储必须达到的性能扩展性和容量扩展性必须兼顾的标准。IBM XIV也是屹今为止世界上唯一一款网格架构的存储器。
(注:EMC的vmax和HP的3par技术与XIV类似,但不如XIV彻底)
我们可以参考一下它的架构:
这种架构的特点:
1、分布式并行架构,提高了群集计算或者群集存储能力。
在XIV存储系统里面,没有任何主控的模块,系统由一个个的网格组成的。这种大规模并行的网格架构和分布式Cache设计,最大化系统所有资源的利用率,最优化的负载分配及负载均衡,消除了热点,获得一致的性能表现,大大提高了群集计算或群集存储的能力。
2、scale out 横向扩展能力强,突破了前端控制器的性能瓶颈。
传统存储架构的向上扩展(Scale-up)容易遭遇前端控制器的性能瓶颈,也就是说容量增长到一定程度,性能的增长不会相应增长,而是会遇到一个瓶颈,这是公认的事实。XIV的虚拟化网格架构使得容量与性能同步扩展, 每个模块均是控制器, 实现即插即用。
3、可靠性的极大提升。
传统存储的负载是高度不平衡的,镜像一般在同一磁盘托架中;控制器出现故障时,性能严重降级;数据重建期间部分磁盘会经受很大的负载压力,而且重建耗时长,使业务经受着极大的风险。而XIV抛弃了传统的Raid镜像方式,使用网格技术使用户数据呈粒度很细的数据分布的方式,均匀分布于所有磁盘间,使负载完美均衡。这一架构的优越之处在于当磁盘出现故障时,系统中所有的磁盘均会自动通过分布式Cache参与重建,不会影响到整体性能,这就是XIV应对可靠性的“自恢复”特性。这种特性使XIV可将1TB磁盘在充满数据情形下,30分钟或更短时间内重建,极大地降低了数据风险。
总结:从存储资源的分散到集中,从虚拟化到存储的整合再到云存储,经过这样一个演进过程,存储的架构正走向简约和集中,IT运营模式也随之逐步发生了改变,作为信息载体的存储系统正在日渐成为整个企业IT架构的核心,它的性能、可用性、可靠性、可管理性会直接对企业的业务连续性和稳定运行造成重要的影响。在进行IT系统的长远规划时,目前已经有越来越多的用户会把存储系统作为规划的起点和重点,其他相关设施均基于存储系统向外辐射,以实现IT与业务的真正融合。
本文出自 “滴水穿石孙杰” 博客,谢绝转载!