10.云存储技术
10.1存储基本知识
存储分类
封闭式系统的存储
开放式系统的存储
内置存储
外挂存储
Direct-Attached Storage
直连式存储(DAS)
Fabric-Attached Storage
网络存储(FAS)
Network-Attached Storage
网络接入存储(NAS)
Storage Area Network
存储区域网络(SAN)
DAS分析
连接简单
集成在服务器内部;点到点的连接;距离短;
安装技术要求不高
低成本需求
SCSI总线成本低
较好的性能
通用的解决方案
DAS的投资低,绝大多数应用可以接受
有限的扩展性
SCSI总线的距离最大25米;最多15个设备
专属的连接
空间资源无法与其他服务器共享
备份和数据保护
备份到与服务器直连的磁带设备上
硬件失败将导致更高的恢复成本
TCO(总拥有成本高)
存储容量的加大导致管理成本上升
存储使用效率低
NAS的优缺点
资源共享
构架于IP网络之上
部署简单
较好的扩展性
异构环境下的文件共享
易于管理
备份方案简单
低的TCO
扩展性有限
带宽瓶颈,一些应用会占用带宽资源
不适应某些数据库的应用
SAN的优缺点
SAN优势
实现存储介质的共享
非常好的扩展性
易于数据备份和恢复
实现备份磁带共享
LAN Free和Server Free
高性能
支持服务器群集技术
容灾手段
低的TCO
SAN劣势
成本较高
需要专用的连接设备如FC交换机以及HBA
SAN孤岛
技术较为复杂
需要专业的技术人员维护
10.2对象存储技术
传统块存储与对象存储
在传统的存储系统中用文件或块作为基本的存储单位,块设备要记录每个存储数据块在设备上的位置;而在对象存储系统中,对象是数据存储的基本单元,Object维护自己的属性,从而简化了存储系统的管理任务,增加了灵活性,在存储设备中,所有对象都有一个对象标识,通过对象标识OSD命令访问该对象。
对象的组成
对象是系统中数据存储的基本单位,每个Object是数据和数据属性集的综合体,数据属性可以根据应用的需求进行设置,包括数据分布、服务质量等。
对象(Object)
包含了文件数据以及相关的属性信息,可以进行自我管理
名字空间:对象ID
数据
元数据
元数据类似于inode,描述了对象在磁盘上的块分布
属性
根据需要而定义
E.g. 多媒体对象的延迟和吞吐请求
因此,对象存储就是实现对象具有高性能、高可靠性、跨平台以及安全的数据共享的存储体系,是块和文件之外的存储形式
对象存储系统组成
对象(Object)
包含了文件数据以及相关的属性信息,可以进行自我管理
OSD(Object-based Storage Device)
一个智能设备,是Object的集合
文件系统
文件系统运行在客户端上,将应用程序的文件系统请求传输到MDS和OSD上
元数据服务器(Metadata Server,MDS)
系统提供元数据、Cache一致性等服务
网络连接
网络连接是对象存储系统的重要组成部分。它将客户端、MDS和OSD连接起来,构成了一个完整的系统
文件系统
文件系统对用户的文件操作进行解释,并在元数据服务器和OSD间通信,完成所请求的操作。
现有的应用对数据的访问大部分都是通过POSIX文件方式进行的,对象存储系统提供给用户的也是标准的POSIX文件访问接口。
接口具有和通用文件系统相同的访问方式,同时为了提高性能,也具有对数据的Cache功能和文件的条带功能。
同时,文件系统必须维护不同客户端上Cache的一致性,保证文件系统的数据一致
元数据服务器 (Metadata Server)
MDS控制Client与OSD对象的交互,主要提供以下几个功能:
(1) 对象存储访问:MDS构造、管理描述每个文件分布的视图,允许Client直接访问对象。MDS为Client提供访问该文件所含对象的能力,OSD在接收到每个请求时将先验证该能力,然后才可以访问。
(2) 文件和目录访问管理:MDS在存储系统上构建一个文件结构,包括限额控制、目录和文件的创建和删除、访问控制等。
(3) Client Cache一致性:为了提高Client性能,在对象存储系统设计时通常支持Client方的Cache。由于引入Client方的Cache,带来了Cache一致性问题,MDS支持基于Client的文件Cache,当Cache的文件发生改变时,将通知Client刷新Cache,从而防止Cache不一致引发的问题。
10.3存储技术趋势
数据优化技术将成为热点
存储虚拟化
存储虚拟化是目前以及未来的存储技术热点,它其实并不算是什么全新的概念,RAID、LVM、SWAP、VM、文件系统等这些都归属于其范畴。
存储的虚拟化技术有很多优点,比如提高存储利用效率和性能,简化存储管理复杂性,绿色节省,降低运营成本等。
目前最新的存储虚拟化技术有自动分级存储(HSM)、自动精减配置(Thin provision)、云存储(Cloud storage)、分布式文件系统(Distributed file system),另外还有诸如动态内存分区、SAN和NAS虚拟化。
虚拟化可以柔性地解决不断出现的新存储需求问题,因此我们可以断言存储虚拟化仍将是未来存储的发展趋势之一
固态硬盘
固态硬盘(SSD, solid state disk)是目前倍受存储界广泛关注的存储新技术,它被看作是一种革命性的存储技术,可能会给存储行业甚至计算机体系结构带来深刻变革。
SSD与传统磁盘不同,它是一种电子器件而非物理机械装置,它具有体积小、能耗小、搞干扰能力强、寻址时间极小(甚至可以忽略不计)、IOPS高、I/O性能高等特点。
对于存储系统来说,SSD最大突破是大幅提高了IOPS,摩尔定理的效力再次显现,通过简单地用SSD替换传统磁盘,就可能可以达到和超越综合运用缓存、预读、高并发、数据局部性、磁盘调度策略等软件技术的效用。
SSD已经开始被广泛接受并应用,当前主要的限制因素包括价格、使用寿命、写性能抖动等。从最近两年的发展情况来看,这些问题都在不断地改善和解决,SSD的发展和广泛应用将势不可挡。
重复数据删除
重复数据删除(Deduplication)是一种目前主流且非常热门的存储技术,可对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。
Dedupe技术可以帮助众多应用降低数据存储量,节省网络带宽,提高存储效率、减小备份窗口,节省成本。Dedupe技术目前大量应用于数据备份与归档系统,因为对数据进行多次备份后,存在大量重复数据。事实上,它也可以用于很多场合,包括在线数据、近线数据、离线数据存储系统。
信息呈现的指数级增长方式给存储容量带来巨大的压力,而dedupe是最为行之有效的解决方案,因此固然其有一定的不足,它大行其道的技术趋势无法改变。更低碰撞概率的hash函数、多核、GPU、SSD等,这些技术推动dedupe走向成熟,由作为一种产品而转向作为一种功能,逐渐应用到近线和在线存储系统。
SOHO存储
SOHO(Small office, home office)存储即家庭或个人存储。现代家庭中拥有多台PC、笔记本电脑、上网本、平板电脑、智能手机,这种情况业已非常普遍,这些设备将组成家庭网络。
SOHO存储的数据主要来自个人文档、工作文档、软件与程序源码、电影与音乐、自拍视频与照片,部分数据需要在不同设备之间共享与同步,重要数据需要备份或者在不同设备之间复制多份,需要在多台设备之间协同搜索文件,需要多设备共享的存储空间等
SOHO存储目前大致有两种思路,一是home NAS微型存储装置,提供文件级的集中共享存储空间,并在NAS提供数据备份和复制、数据管理、高级文件检索、多种数据访问协议和接口等功能。二是p2p存储系统,利用软件系统将各个设备的存储空间统一起来,提供一个虚拟的集中共享存储空间,同样可以提供home NAS上的所有功能。
ROBO存储
ROBO(Remote office, branch office)存储即企业远程或分支机构存储。
大的公司或组织机构会有多个子公司或分支机构组成,物理分布在世界上不同的城市。ROBO存储正是为了应对这种基于互联网的协作式工作模式而产生的。ROBO存储的需求主要集中在数据同步、共享、分发、协作,传统的上传/下载模式文件服务难以满足这种需求,天然地需要基于互联网的广域分布式文件系统。
针对ROBO存储,通常在公司总部部署集中式存储系统保存所有的数据,在每个子公司部署较小的存储节点,然后通过高速网络互联,并提供高效的数据同步、分发、数据缓存等机制,尽量减少数据通信量以提高性能和实时性。目前ROBO存储似乎还没有成熟的解决方案
语义化检索
数据检索目前主要分为两类,一是基于文件名,二是基于文件内容。主流文件系统的数据检索都是基于文件名进行的,桌面搜索引擎则综合文件名和文件内容进行检索,前者遍历文件系统元数据,后者需要解析文件内容,它们都是通过关键字匹配来实现检索。显然,这两类检索的语义是非常有限的,与人类思维方式有着很大的区别。
存储系统完全可以实现语义化的检索,通过文件属性和关系来检索文件,并用关系网络(类似社会化网络)来表示检索结果。这种方式语义上更加丰富,检索结果更加精确,也更加符合人类的思维方式。
面对海量的数据,精确、高效地检索出自己需要的数据是第一步,语义化检索符合存储的技术发展趋势。
存储智能化
人工智能是计算机的发展方向,这是个理想而艰巨的目标。对于存储系统来说,智能化代表着自动化、自适应、兼容性、自治管理、弹性应用,通过对系统的监控、分析和挖掘来发现数据应用的特点和使用者的行为模式并动态调整配置,从而达到最佳的运行状态。
存储智能化可以分别在存储系统栈中的不同层次实现,包括磁盘、RAID、卷管理器、文件系统、NAS系统、应用系统,从而形成系统的存储智能化。
虽然我们已经取得了一定的成果,但离真正的目标差距还很大,存储学术界和业界都在这此而努力。智慧的存储,让数据在整个信息生命周期内有序、高效、自治,存储效用最大化、简化管理、减少人工干预,这应该是存储的大趋势。
————————————————
版权声明:本文为CSDN博主「zhaohaiyang_」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/zhaohaiyang_/article/details/103365395