大数据存储方式有哪些?

写在前面

本文隶属于专栏《大数据从 0 到 1》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见《大数据从 0 到 1》


正文

数据常用的存储介质为磁盘和磁带。

数据存储组织方式因存储介质不同而异。

在磁带上数据仅按顺序文件方式存取,在磁盘上则可按使用要求采用直接存取方式。

数据存储方式与数据文件组织密切相关,其关键在于建立记录的逻辑与物理顺序间对应关系,确定存储地址,以提高数据存取速度。

1. 直接连接存储

DAS (Direct Attached Storage,直接连接存储)是指将外置存储设备通过连接电缆,直接连接到一台主机上,再直接连接到存储系统中,使得数据存储是整个主机结构的一部分,在这种情況下,文件和数据的管理依赖于本机操作系统。

操作系统对磁盘数据的读写与维护管理, 需要占用主机资源,如 CPU、系统IO 等。

直接连接存储的 优点是中间环节少,磁盘读写带宽的利用率高,成本也比较低;缺点是其扩展能力有限,数据存储占用主机资源,使得主机的性能受到相当大的影响,同时主机系统的软硬件故障将直接影响对存储数据的访问。

直接连接存储方式适用于小型网络及一些硬盘播出系统。

2.网络连接存储

NAS (Network Attached Storage,网络连接存储)全面改进了低效的 DAS 存储。

它采用独立于服务器,单独为网络数据存储而开发的一种文件服务器来连接所存储设备,自形成一个网络。

这样数据存储不再是服务器的附属,而是作为独立网络结点存在于网络之中,可由所有的网络用户共享。

由于NAS 可无须网络文件服务器,不依赖通用的操作系统,而是采用一个专门用于数据存储的简化操作系统,内置了网络通信协议,其内嵌的操作系统及硬件体系结构专门针对文件管理和存储管理进行设计和优化,去掉了通用服务器的大多数计算及多媒体功能,能提供高效率的文档服务,不仅响应速度快,而且数据传输速率高。

3.存储域网络存储

SAN (Storage Area Network,存储域网络)是指通过支持 SAN 协议的光纤信道交换机,将主机和存储系统联系起来,组成一个 LUN Based 的网络。

与传统技术相比,SAN 技术的最大特点是将存储设备从传统的以太网中隔离出来,成为独立的存储局域网络。

SAN 使得存储与服务器分开成为现实。SAN技术的另一大特点是完全采用光纤连接,从而保证了大的数据传输带宽。

SAN 具有以下优点:专为传输而设计的光纤信道协议,使其传输速率和传输效率都非常高,特别适合于大数据量高带宽的传输要求。SAN 采用了网络结构,所以具有无限的扩展能力。

SAN 的欲点是成本高,管理难度大。


DAS、 NAS 和 SAN 三种存储比较

DAS、NAS 和 SAN 三种存储共存与互补,已经能够很好地满足数据存储的应用。

  1. 连接方式。从连接方式上比较,DAS 采用了存储设备直接连接应用服务器,具有一定的灵活性和限制性;NAS 通过网络(TCP/IP、ATM、FDDI) 技术连接存储设备和应用服务器, 存储设备位置灵活,随着万兆网的出现,传输速率有了很大的提高;SAN 则是通过光纤通道技术连接存储设备和应用服务器,具有很好的传输速率和扩-展性能。三种存储方式各有优势, 相互共存,占到了现在磁盘存储市场的70%以上。
  2. 产品的价格。SAN 和 NAS 产品的价格仍然远远高于DAS,许多用户出于价格因素考虑选择了低效率的直连存储而不是高效率的共享存储。
  3. 自动精简配置。SAN 和NAS 系统可以利用自动精简配置技术来弥补早期存储分配不灵活问题。与直连存储架构相比,共享式的存储架构(如 SAN 或者 NAS) 都可以较好地完成存储问题。于是淘汰直接连接存储的进程越来越快。但是,目前直接连接存储仍然是服务器与存储连接的一种常用方式。

总结

数据常用的存储介质为磁盘和磁带,数据存储组织方式因存储介质不同而异。

直接连接存储(DAS)适用于小型网络及一些硬盘播出系统,网络连接存储(NAS)采用独立于服务器的一种文件服务器来连接所存储设备,存储域网络(SAN)通过支持SAN协议的光纤信道交换机,将主机和存储系统联系起来,组成一个LUN Based的网络。

DAS、NAS和SAN三种存储方式各有优劣,相互共存,占到了现在磁盘存储市场的70%以上。

SAN和NAS系统可以利用自动精简配置技术来弥补早期存储分配不灵活问题。

SAN和NAS产品的价格仍然远远高于DAS,许多用户出于价格因素考虑选择了低效率的直连存储而不是高效率的共享存储。


思维导图

大数据存储方式有哪些?_第1张图片

你可能感兴趣的:(大数据理论体系,大数据,网络,服务器)