网络存储学习之网络存储技术的发展现状及趋势

1 概述

图灵奖获得者Jim Gray提出了一个新的经验定律:网络环境下每十八个月产生的数据量等于有史以来数据量之和。信息资源的爆炸性增长对存储系统在存储容量、数据可用性以及I/O性能等方面提出了越来越高的要求。

1.1 信息时代对网络存储的要求

数据的存取只应该受到安全机制的限制,而不应该受到地域空间的约束。在数字化和网络互联时代、在多用户并行环境中,大规模应用系统的广泛部署对网络存储系统的性能和功能提出了巨大挑战,主要表现为:
  1. 高性能:各种实时性要求严格的应用系统要求SAN存储系统提供高性能的处理和传输能力以满足实时性要求,尤其在大数据量和高突发性的应用系统中,吞吐量和命令处理速率是非常关键的指标。
  2. 可扩展性:存储系统必须能够根据应用系统的需求动态扩展存储容量、系统规模及软件功能。如在许多应用系统如数字图书馆、石油勘探地震资料处理等应用,需求PB以上级别的海量存储容量。
  3. 可共享性:存储资源可以方便的被前端异构平台的主机共享使用。
  4. 自适应性:存储系统能够根据各种应用系统的动态工作负载和内部设备能力的变化动态改变自己的配置、策略以提高I/O性能。
  5. 可管理性:当存储容量、存储设备、服务器以及网络设备越来越多时,系统管理变得复杂,因此系统需要提供高可管理性,以减少系统管理和配置的时间。
  6. 可靠性/可用性:许多应用系统需要24×365连续运行,要求存储系统具有高度的可用性,以提供不间断的数据存取服务。

2  网络存储技术的发展

现在网络存储技术主要有三种:直连式存储(DAS:Direct Attached Storage)、网络存储设备(NAS:Network Attached Storage)和存储网络(SAN:Storage Area Network)。

2.1 直连式存储 DAS

DAS(Direct Aaached Storage一直接连接存储)被定义为直接连接在各种服务器或客户端扩展接口下的数据存储设备,是指将存储设备通过SCSI接口或光纤通道直接连接到服务器上的方式。如图2,它完全以服务器为中心,寄生在相应服务器或客户端上,其本身是硬件的堆叠,不带有任何存储操作系统。其特征为存储设备为通用服务器的一部分,该服务器同时提供应用程序的运行,即数据访问与操作系统、文件系统和服务程序紧密相关。当用户数量增加或服务器正在提供服务时,其响应速度会变慢.在网络带宽足够的情况下,服务器本身成为数据输入输出的瓶颈。现在已渐渐不能满足用户的需求,不再为大家所采用。DAS存储没有刚络结构。存在许多缺点:一方面该技术具备共享性,每种客户机类型都需要一个服务器,从而增加了存储管理和维护的难度;另一方面,当存储容量增加时,扩容变得十分困难。而且当服务器发生故障时,数据也难以获取。因此,DAS难以满足现今的存储要求。

2.2 网络附加存储 NAS

在这种新的存储结构中,存储系统不再通过I/0总线附属于某个特定的服务器或客户机,而是直接通过网络接口与网络直接相连,由用户通过网络访问。与DAS系统相比,NAS具有非常好的可扩展性(Scalability),并且由于数据不再通过服务器内存转发(这会引起额外延迟和阻塞),数据直接在客户机和存储设备间传送(即所谓第三方传送),服务器仅起控制管理的作用,因而具有更快的响应速度和更高的数据带宽。另外对服务器的要求降低,可大大降低服务器成本,这样就有利于高性能存储系统在更广的范围内普及应用。

2.3  存储区域网络 SAN

存储局域网是一种利用Fiber Channel等存储协议连接起来的可以在存储资源和服务器之间建立直接的数据连接的高速计算机网络。光纤通道把多个存储设备和服务器连接在一起形成一个存储局域网,其中存储设备共同构成一个存储池,都可以很方便的添加到网络中去,因此具有较好的可扩展性。存储设备从服务器中分离出来,与服务器形成一个多对多的关系,存储设备上的数据容易被其他服务器共享,迁移也变得很容易。采用存储局域网,数据的备份、恢复、迁移都是通过存储局域网本身来完成,而不需要借助于服务器和现有的LAN/WAN,从而大大减少了现有服务器和网络的工作负载。由于采用的是具有高带宽的光纤通道,所以整个存储网络具有较高的数传率,数据访问性能较好。另外存储设备都集中在一个网络上,便于管理,节省了管理开销。

2.4 Jini技术

Jini是一种新的网络体系结构,它实现了网络设备的自发组网,即网络中的“即插即用”。Jini平台由Java语言开发环境衍生而来,其核心是只有48KB的Java二进制代码。采用Jini技术的网络设备互连在一起组成一个Jini设备的联盟,每个设备自身都可以为联盟中的其他设备提供服务。为了保证服务的可靠性和兼容性,Jini设备都必需提供一定的接口。Jini技术是用查找服务(1ookup Service)来注册联盟中的设备以及设备提供的服务,当一个新的设备加人联盟时,它必需先向该联盟中的某个查找服务发送一个代理信息包,该信息包含了设备提供的服务的接口及其他规定属性。当Jini联盟中的客户需要利用联盟中的某一项服务时,它通过联盟中的查找服务代理去寻找相关服务的位置,下载其代理信息的副本,从而得到该服务。

3 网络存储的发展趋势

3.1 基于InfiniBand的存储系统

InfiniBand 是被用来取代PCI总线的新I/O体系结构。InfiniBand把网络技术引入I/O体系中,形成一个I/O交换网络结构,主机系统通过一个或多个主机通道适配器(HCA)连接到I/O交换网上,存储器、网络通信设备通过目标通道适配器(TCA)连接到该I/O交换网上。

InfiniBand体系结构把IP网络和存储网络合二为一,以交换机互连和路由器互连的方式支持系统的可扩展性。服务器端通过主机通道适配器(HCA)连接到主机内存总线上,突破了PCI的带宽限制,存储设备端通过终端通道适配器(TCA)连接到物理设备上,突破了SCSI和FC-AL的带宽限制。 在InfiniBand体系结构下,可以实现不同形式的存储系统,包括SAN和NAS。
基于InfiniBandI/O路径的SAN存储系统有两种实现途径:其一是SAN存储设备内部通过InfiniBand I/O路径进行数据通信,InfiniBand I/O路径取代PCI或高速串性总线,但与服务器/主机系统的连接还是通过FC I/O路径;其二是SAN存储设备和主机系统利用InfiniBand I/O路径取代FC I/O路径,实现彻底地基于InfiniBand I/O路径的存储体系结构。

3.2 采用DAFS

DAFS的主要作用是主要的目的是在所有的网络上建立一个通用的网络I/O存储系统。 作为一种文件系统协议,直接存取文件系统DAFS可以在大量甚至过量负载时有效地减轻存储服务器的计算压力,提高存储系统的性能。DAFS把RDMA的优点和NAS的存储能力集成在一起,全部读写操作都直接通过DAFS的用户层——RDMA驱动器执行,从而降低了网络文件协议所带来的系统负载。

DAFS的基本原理是通过缩短服务器读写文件时的数据路径来减少和重新分配CPU的计算任务。它提供内存到内存的直接传输途径,使数据块的复制工作不需要经过应用服务器和文件服务器的CPU,而是在这两个物理设备预先映射的缓冲区中直接传输。也就是说,文件可以直接由应用服务器内存传输到存储服务器内存,而不必先填充各种各样的系统缓冲区和网络接收器。DAFS可以直接集成到NAS存储服务器中,一方面实现高性能的数据传输,另一方面也可以更好地支持数据库管理系统,如Oracle数据库等。

具体来讲,DAFS协议的设计充分利用正出现的RDMA网络通信技术,例如InfiniBand, VI和iWARP的文件存取协议,从而极大地增强了WEB、计算、电子商务等各种应用的性能、可靠性与可扩展性。因为DAFS网络文件协议直接在内核中实现,而且直接通过内核的文件系统低层和设备交互,因此,从体系结构上,基于DAFS的NAS和基于SCSI目标模拟器的SAN体系结构基本相同,这样就可以把NAS和SAN融合到一个存储设备中,实现NAS和SAN的融合。
DUKE大学在MYRINET和以太网网络上基于IP协议实现了一个统一传输协议的SAN存储系统,并将DAFS实现在该SAN存储系统中,于是实现了统一传输协议以及统一NAS和SAN的网络存储系统。DAFS客户与DAFS文件服务器的体系结构如下图所示:

3.3NASD技术

NASD(Network-AttachedSecure Disk)是CMU大学目前正在研究的网络存储项目,它是一个类似NAS存储设备的智能磁盘驱动器,但将管理、文件系统语义和存储转发相分离,仅实现基本的存储元语,由文件管理器实现文件系统的高层管理部分。它对外提供以太网、ATM等数据通信接口与IP网络相连,或者通过FC接口连接到SAN上。

NASD设备嵌入了低层的磁盘管理功能并提供了可变化长度的对象存储接口。客户端可以直接存取NASD设备中的存储资源。文件管理器负责每个客户对NASD设备存储资源的存取控制和检查工作。存储管理器则负责NASD存储资源的映射管理和RAID管理等工作。因为网络通信可以通过公用数据网络采用普通的通信协议完成,因而NASD需要提供安全机制,目前采用的是基于私钥/公钥验证技术的安全机制。

3.4 统一虚拟存储。

统一的虚拟存储将不同厂商的FC-SAN、NAS、IP-SAN、DAS等各类存储资源整合起来,形成一个统一管理、监控和使用的公用存储池。虚拟存储的实质是资源共享,因此,统一虚拟存储的任务有两点:其一是如何进一步增加可共享的存储资源的数量;其二是如何通过有效的机制在现有存储资源基础上提供更好的服务。

从系统的观点看,存储虚拟化有三种途径:基于主机的虚拟化存储、基于存储设备的虚拟化存储以及基于网络的虚拟化存储。统一虚拟存储的实现只能从虚拟存储的实质出发,因此,单一存储映象的方法可能是虚拟存储的发展方向。

NAS和SAN是目前网络存储的主流技术,二者在不同的应用领域各有所长,还出现了二者相互融合的趋势。随着SAN在IP网络中的成功应用,其低廉的成本,加上虚拟存储技术的广泛应用,SAN极有可能成为网络存储的主导方向,而存储虚拟化、数据高可用和容灾支持将会是SAN的关键技术。

3.5 基于IP的网络存储技术

IP.SAN是采用iSCSl(Interact Small ComputerSystems Interface)协议构架在IP网络上的SAN。iSCSI协议通过IP协议来封装SCSI命令,并在IP网络上传输SCSI命令和数据。在FC.SAN结构中,服务器间的消息传递使用的是前端局域网,而数据传输则被限制在后端的存储网络中。但是,IpoSAN的倡导者认为存储网络应该与应用网络使用相同的体系架构和技术标准,也就是说,IPSAN存储系统既使用IP网络进行消息传递,也使用IP网络进行数据传输。基于IP网络的SAN系统可充分利用目前普遍使用的lP网络基础设施,解决了应用网络和存储网络异构的问题。另一方面,IP.SAN的数据传输路径和FCSAN存储系统的I/O路径相比,只是光纤通道卡和FCP协议变为iSCSI卡和iSCSI协议。

3.6 远程分布式存储

从远程和网络存储的角度来看,广泛用于高性能计算机中的分布式存储也属于网络内存,典型的如NUMA(Non.Uniformed Memoq Access,非一致内存访问)和DSM(Distributed Software Memory)系统。他们都是通过访问远程内存来扩展本地内存,或者实现共享。他们的出现由来已久,广泛用于高性能计算机中。

3.7 NUMA (Non-Uniformed Memory Access)

NUNLA系统通常是通过高速专用网络连接起来的独立的高速处理器构成的大规模处理器系统睁。这样的系统可以提供很高的综合性能。在协作方式下运行的这些处理器集合可以象单处理器系统一样分时运行。多处理器系统在性能上的优势促进了具有硬件支持的标准操作系统及多处理器编程工具的多处理器系统的发展。并在这样条件的作用下,多处理器系统变得更易于实现。而为了获得更高的性能而编写多处理器程序的思想也被广泛接受。为了提高性能,在大规模共享存储多处理器系统中,存储器在多处理器上呈分布式。因此,对一个处理器来讲,访问本地存储器比访问远程存储器用的时间要少得多。但它的控制部件和互连网络是高度专用的,成本非常高,应用范围非常小。

3.8 DSM (Distributed Software Memory)

软件分布式共享存储系统(DsM)是在消息传递的硬件上(如机群系统)通过软件的方法实现的共享存储编程抽象,这个抽象本质的内容是一个共享的、统一编址的逻辑地址空间,通常把这个空间叫做虚拟共享存储空间。软件分布式共享存储系统负责实现分布的存储空间和虚拟共享存储空间之间的地址相互转换,同时它也必须负责维护整个虚拟共享存储空间的一致性,即从该共享空间的某个地址上读操作返回的值应是最新写的值。这样,从程序员的角度来看,他们除了做一些简单的任务划分外,就像使用传统的串行机器一样方便。而软件分布式共享存储系统则因为网络性能、为维护一致性所引发的系统开销、假共享和频繁通信受到严重影响。有些专门的网络内存方面的研究,如SAMON、MOMEMTO等,利用现有的结点和网络,主要在软件层次实现网络内存,其实质是对DSM的改进,性能、容量和成本都受到限制。

4 SAN和NAS的区别

SAN与NAS虽然在功能上有很多相同之处,但它们还是有很大区别的,以下讨论两者之间的相同之处。

4.1 SAN和NAS的共同特征

(1)都用于扩展存储容量和性能,都可随大容量存储的增长而逐步扩展,可扩展性较好;
(2)二者的拓扑结构都使得用户可以分开采购存储设备和服务器,使得用户可以针对自己的需求量体裁衣,选购自己需要的产品,大大减少了用户的重复开销;
(3)不同的用户都可以通过多种操作系统得到所要的数据;
(4)由于存储数据不再依赖于某个具体的多功能服务器,使得其具有较高的数据可用性,消除了传统的附属于服务器存储方式中的I/O瓶颈。通过提供对存储的集中管理大大减少了管理开销,用户并不需要把UNIX,或者是NT系统生成的数据分开存储。尽管SAN和NAS有很多共同特征,但二者还是有很大的差异的,其最大的差异是存储局域网是一个网络的概念,而附网存储实际上是指一种可以与网络直接相连的存储设备,它更多的是强调“设备”的概念。存储局域网考虑的是如何利用光纤通道把现有的存储设备和服务器等资源连接成一个共享的网络,而附网存储更多的是考虑如何管理客户机通过网络与存储设备之间数据的存储和流动,它更多的依靠现有标准的LAN/WAN连接。

4.2 SAN的优点

(1)通过提供光纤通道的连接,提供高速数据访问,特别适合于处理音频、视频这类的大容量数据;
(2)具有较好的数据完整性、可用性和可靠性,特别适合于用作备份和灾难恢复的镜像站点,最远可达10 km;
(3)使用可靠的SCSI协议进行连接,而不是NFS,FTP,HTrP之类的网络协议;
(4)强调的是集中的存储服务,而不强调共享存储。

4.2 SAN的弱点

(1)与NAS相比较,安装费用较高,随着网络环的深度、方案的规模和复杂度而增加;
(2)由于远距离光纤通道价格昂贵,所以SAN通常情况下局限于局域网;
(3)由于SAN考虑的是集中存储,而不是共享存储,所以SAN环境中数据的共享比较困难,需要客户端的操作系统对其他操作系统的数据格式有较好的支持;
(4)SAN安装复杂,通常需要定制安装。

4.3 NAS的优势

(1)对于需要快速、大范围访问数据的用户来说是最简单别致的方案,这个方案不影响用户现有的网络结构;
(2)不同操作系统的异质网络环境下的数据共享十分方便;
(3)适用于低速连接;
(4)数据可以集中管理。

4.4 NAS的弱点

(1)安全性问题,由于附网存储设备直接与以太网相连,其安全性存在着一定的问题,通常为了保障安全性,需要设置防火墙;
(2)大量数据存储都通过网络完成,增加了网络的负载,特别不适合音频、视频数据的存储;
(3)灾难恢复比较困难,通常需要一个专门定制方案。

4.5 SAN的应用

SAN的应用主要可以归纳为下面集中应用:构造群集环境,利用存储局域网可以很方便地通过光纤通道把各种服务器、存储设备连接在一起构成一个具有高性能、较好的数据可用性、可扩展的群集环境。
(1)数据保护,存储局域网可以做到无服务器的数据备份,数据也可以后台的方式在存储局域网上传递,大大减少了主要网络和服务器上的负载,所以存储局域网可以很方便地实现诸如磁盘冗余、关键数据备份、远程群集、远程镜像等许多防止数据丢失的数据保护技术;
(2)数据迁移,可以方便地进行两个存储设备之间的数据移动;
(3)灾难恢复,特别是远程的灾难恢复;
(4)数据仓库,用来构建一个网络系统的存储仓库,使得整个存储系统可以很好地共享。

4.6  NAS的应用

网络存储由于其较好的可扩展性、可访问性、低价位、安装简单、易于管理等优点,广泛应用于电子出版、CAD、图像、教育、银行、政府、法律环境等那些对数据量有较大需求的应用中。多媒体、Internet下载以及在线数据的增长,特别是那些要求存储器能随着公司文件大小规模而增长的企业、小型公司、大型组织的部门网络,更需要这样一个简单的可扩展的方案。网络存储低档产品适用于那些需要增加存储容量的小的工作组网络环境,网络存储高档产品则旨在加速企业服务器的性能。

5 总结与展望

网络存储提高了数据的共享性,可用性,可扩展性和管理性,但仍然存在一些缺陷。如:NAS的性能较低;SAN的实现费用较高,互操作性差;IP-SAN则存在着严谨的SCSI协议和无法保证质量的TCP/IP协议的矛盾。因此,网络存储的发展,以解决存储共享,数据共享等问题,仍然是当今存储体系结构研究的重点和热点。目前网络存储的核心技术是围绕SCSI、FC、IP以太网及它们的交叉融合发展,NAS存储系统可能采用DAFS技术提高系统性能,利用虚拟存储体系结构实现所有的存储技术的统一,基于总线的存储,将可能沿着基于InfiniBand技术发展。
但是以上这些项目都没有打破部件紧耦合,没有实现部件级共享;由于采用传统的网络作为互连,延迟开销非常大,不能满足内存部件对延迟的要求:同时从低成本扩展、适应性和延迟隐藏角度进行的研究不足。如果需要解决这些问题,需要有新的互连技术作为基础。

你可能感兴趣的:(网络存储)