大连理工大学存储技术复习总结

归纳总结

数据与信息

数据来源:个人与商家
数据分类:结构化、非结构化
大数据:量大、多样、速度、价值
信息:来源于数据

存储

DAS(单机) -> JBOD(外接很多磁盘) -> RAID Array -> SAN/NAS -> IP SAN(可远程访问)

数据中心:应用、主机、网络、DBMS、存储

管理七要素:Data Integrity, availability, security, performance, scalability, capacity

ILM 信息生命周期管理

管理过程:分类,实现,集成管理,组织

三种技术的融合:信息管理,信息的访问与传递,信息存储

好处:提高利用率,简化管理,简化备份和恢复,维护承诺,成本降低

存储系统环境

数据中心:Application, DBMS, Host, Connectivity, and Storage

主机组成:applications,OS,file system,volume manager,device driver

计算虚拟化–虚拟机

连接

连接协议:
1.强连接: 处理器–RAM PCI
2.直连接:主机–存储 IDE SATA ATA
3.网络连接:以太网 NAS SAN
4.可插拔:USB 火线

PCI:热插拔 133MB/s
升级版 PCI Express

IDE/ATA:IDE并行 ATA串行

SCSI:小型计算机接口 用于服务器 320MB/s 串并都有

USB:通用串行总线

media 存储介质

磁带:顺序存取

光盘:CD-ROM DVD-ROM

磁盘:随机读取数据 机械机构
寻道时间
数据传输率(内部(磁盘到磁头)+外部)

Little’s Law
N = a × R (1)
“N” is the total number of requests in the system
“a” is the arrival rate
“R” is the average response time

Utilization law
U = a × R S (2)
“U” is the I/O controller utilization
“RS “ is the service time

“a”:单位时间内到达系统的I/O请求个数,到达(速)率,由Applications决定;1/a: 到达时间;
Rs:service time 控制器处理一个请求的平均时间,服务时间: 由硬盘硬件决定;
1/Rs:服务(速)率;
“R”: I/O请求到达系统到离开系统的时间,响应时间R;1/R:响应率, 即响应速率S=1/R;(由硬盘本身和应用请求共同决定)
利用率=服务时间/到达时间;利用率=到达率/服务率;
响应速率=服务速率-到达速率:
N:系统请求的总数: 关系NQ=N-U
NQ:队列中请求数
U:服务中的请求数
排队等待时间=响应时间-服务时间;即=R-Rs=U*R;

利用率不要超过70%

##闪存驱动器

4Gb FC接口与SATA3接口
使用和保养:
不使用碎片管理软件
小分区和少分区
保留足够剩余空间
时常恢复

RAID(独立的磁盘阵列)

单个驱动器有预期寿命 MTBF
若一个驱动器MTBF为75000,而阵列中有100个驱动器,则实际MTBF为750

将多个磁盘组合为单一的虚拟磁盘 便宜、稳定性高、高性能、高可靠性

RAID分级

RAID 0(Striped Disk Array without Fault Tolerance,无差错控制的分块磁盘组)
RAID 1(Mirroring,镜象结构)
RAID 0+1(Mirroring and Striping)
RAID 3(Striping with dedicated parity,带奇偶校验的并行传送)
RAID 5(Striping with distributed parity,分布式奇偶校验的独立磁盘结构)
RAID6(带有两种分布存储的奇偶校验码的独立磁盘结构)

Chunk
RAID中每个磁盘分割的最小单位,如4KB or 512B
其大小应该根据上层应用的特点而设置

条带Stripe
不同磁盘的相同偏移处的chunk组成条带
Stripe Size = Chunk size * N

RAID0:
高数据传输率,低的花费(完全没有浪费)
驱动器不能冗余,一个坏全坏

RAID1: 磁盘镜像
可靠性、可用性
高花费、需要增加额外的驱动器

RAID0+1:分条和镜像

RAID1+0:先镜像再分条 比01好一点

RAID3-6

RAID 3 - 使用专用奇偶校验磁盘并行传输
带宽大,分条访问

RAID 4 - 使用专用奇偶校验磁盘进行分条
数据磁盘可以独立进行访问

RAID 5 - 带有分布式奇偶校验的独立磁盘—0和1的折中
高冗余性、高数据传输率、性价比高
实现复杂

RAID 6 - 双奇偶校验 允许两个磁盘发生故障

RAID实施

热备盘–热备替换
热交换–替换控制器

RAID条切“striped”的存取模式
在使用数据分条﹝Data Stripping﹞ 的RAID 系统之中,对成员磁盘驱动器的存取方式,可分为两种:

并行存取﹝Paralleled Access﹞
独立存取﹝Independent Access﹞

RAID 3 是采取并行存取模式。
RAID 0、RAID 4、RAID 5及RAID 6则是采用独立存取模式

智能存储系统

存储配给

传统配给与虚拟配给

可用空间的容量多一点

LUN屏蔽

高端存储系统:主要针对大型企业应用,配备了大量的控制器和缓存内存。主机可以利用任何可用的路径去访问它的 LUN

中端存储系统:适合中小企业的应用,在较低的成本下实现了很好的性能。主机只能通过到该 LUN 的控制器的路径进行访问 两个控制器,可扩展性差

ISS 概念实践

智能存储系统:整体式和模块化
整体式的目标级别是企业级的
模块化存储系统通常为较少数量的windows和unix服务器提供存储

缓存是易失的–断电时用一个专用的物理磁盘来转储

LUN连接主机使用的三个步骤:
1.创建一个RAID组
2.在该RAID组上创建(绑定)LUN
3.将LUN分配给主机

Symmetrix逻辑卷配置:
配置Symmetrix逻辑卷
将Symmetrix逻辑卷映射到前端端口
使Symmetrix逻辑卷可供主机访问

FC SAN

存储工业:
DAS(直连)-> FC SAN(局域网)->iSCSI SAN(物联网)

SAN优势:
高带宽
SCSI扩展
资源整合
可扩展性
安全的访问

FC和SAN的关系:
光纤通道技术非常适合于存储区域网SAN环境
光纤通道和SAN并不是同义词

SAN的组件:
主机总线适配器 (HBA)
光纤布线
光纤通道交换机/集线器
存储阵列
管理系统

SAN连接选择:
点对点直连
通过一个环(FC HUB)
交换机(FC SW)

ISL 交换机链路

交换网络登入:
光纤通入
端口登入
程序注册登入

光纤通道架构

FC架构:
FC-0
FC-1
FC-2
FC-3
FC-4

光纤通道寻址:
域ID+区ID+端口ID
loop ID+ AL_PA ID
unused+AL_PA ID

FC数据帧:
2112B
是一个序列
两个端口间交换

全球通用名称 WWN
64位的唯一标识符

FC拓扑及管理

连接结构

仲裁环FC-AL 127个连接 带宽共享
交换结构FC-SW 数百万个 带宽可扩展

拓扑:网状结构 全网状-最短路径优先
– 主机和存储可以位于连接结构中的任何位置
– 有使用结构最短路径优先 (FSPF) 算法的多条数据路径
– 结构管理比较简单

拓扑:核心-边缘结构 两层或者三层 高可用性、可扩展性、到最优连接性
简化了结构数据的传播。
基于节点类型的高效设计
更容易的 ISL 负载和通信模式计算

拓扑:复合“边缘-核心”拓扑

SAN管理:

  1. 基础架构保护 – 物理安全,存储基础架构
  2. 结构管理 – 供应商提供的管理软件 分区 (WWN分区、端口分区、混合分区)
  3. 存储分配

资源调配:LUN掩蔽

FC例子

SAN部署:

何时应使用 SAN:
SAN 针对高带宽数据块级 I/O 进行了优化
适合实时应用程序需求
– 数据库:OLTP(在线事务处理) 或视频流
具有高事务处理率和高数据易失性的任何应用程序
– 对 I/O 延迟和吞吐量要求非常苛刻
用于整合异构存储环境
– 物理整合
– 逻辑整合

FC SAN 挑战
基础架构
– 必需新的单独的网络
所需技能
– 因为是一种相对较新的技术,所以需要培养 FC SAN 管理技能
成本
– 有效的实施需要很大的投资

交换机与控制器之对比:
Connectrix 交换机
– 通过冗余部署实现了高可用性
– 冗余风扇和电源
– 部门部署,或数据中心部署的一部分
– 中小型连接结构
– 具备使用多协议的可能性
Connectrix 控制器
– “完全冗余”提供了最佳的可维护性和最高的可用性
– 数据中心部署
– 最大的可扩展性
– 最高的性能
– 大型连接结构
– 多协议

IP SAN协议

iSCSI 基于IP的SCSI
FCIP-FC IP网桥 点对点
iFCP IP作为交换机间结构

– FCIP — 基于 TCP/IP 的隧道/封装协议,用于连接/扩展光纤通 道 SAN。通过 IP 链路发送整个 FC 帧。

– iFCP — 网关到网关协议,用于基于 IP 的 FCP。在 IP 数据包中 以本机模式映射光纤通道和 IP。实际上是一种基于 IP 的隧道协 议,用于将光纤通道设备互连在一起,以取代光纤通道交换机。

– iSCSI — 本机 TCP/IP 协议。它是一种基于 IP 的协议,用于在 基于 IP 的存储设备、主机和客户端之间建立和管理连接。不涉 及光纤通道内容,但是在 iSCSI 和 FC 之间可以建立桥接。

IP SAN优势:
经济高效
– 多数公司都已拥有 IP 网络,并且非常熟悉传统的网络管理
– 利用现有的光纤通道应用程序
扩展 SAN 的延伸范围
标准光纤通道距离一般为 km 级别,而IP 可将光纤通道的应用扩展到 地区/全球距离
如果有较高的链路速度,IP 可以处理同步应用

课后习题

数据的两种总类

根据存储和管理方式,可以将数据划分为结构化数据和非结构化数据,结构化数据按照行和列这种严格的格式组织,以便用户能够高效的检索和处理,结构化数据通常用于数据库管理系统存储。如果数据无法按行和列进行存储,那么该数据就是非结构化数据,这种数据比较难于被商业应用检索和查询。

数据中心5个核心

应用、数据库管理系统、主机、网络、存储

存储技术7个要求

Data Integrity, availability, security, performance, scalability, capacity

数据完整性,可用性,安全性,性能,可扩展性,容量

ILM的优点

更高的资源利用率,简化的管理,更广泛的选择,维护约定,更低的总拥有成本

主机的物理组成和逻辑组成

物理:CPU、iOS设备、存储
逻辑:应用、操作系统、文件系统、磁盘控制、设备驱动器

常用连接协议

PCI IDE/ATA SCSI USB IP

寻道时间和旋转延迟的区别

寻道时间是指读写头在盘面上移动进行定位的时间,也就是移动驱动臂将读写头移动到正确的磁道所需的时间。旋转延迟是指盘片旋转以定位读写头下方的数据所用的时间为旋转延迟时间。

主机举例

笔记本、台式pc、服务器集群

内外部传输速率的区别

内部传输速率是指的是数据从一个盘面上的单个磁道传输到内部缓冲区的速率外部传

输速率指的是数据从接口移动到 HBA 的速率

闪盘的好处

低IO延迟 节约能源 高吞吐率

闪盘如何使用与维护

不使用碎片管理软件
小分区和少分区
保留足够剩余空间
时常恢复

什么是RAID Array

由独立的磁盘组成的具有冗余特性的阵列

RAID 阵列是一个有许多硬盘以及支撑 RAID 功能的相关软硬件所组成的封闭模块。

RAID的好处

磁盘损坏时提供数据保护
更高的数据可用性
改进的 I/O 性能
精简的存储设备管理

什么方法可以提高RAID数据可用性

RAID技术将多个磁盘组合为单一的虚拟磁盘, 通过数据条带化、数据校验等方式提供数据存储的高性能和高可靠性。
RAID 通过在多个磁盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量。
通过数据校验,RAID 可以提供容错功能。利用同位检查,在硬盘故障时,仍然可以通过计算得到数据。

RAID3和RAID5的主要区别

RAID3 有校验值写瓶颈 RAID5克服了
RAID3 校验值存在一个盘上 RAID5 存在不同的盘上
RAID3 在所有磁盘上并行读取和写入数据 RAID5 可以单独访问数据块

RAID6的优势

安全,允许坏了两块硬盘

读命中和读未命中的区别

在缓存中找到数据称为读命中, 在缓存中找不到数据成为“读未命中”。

写通过缓存和写透过缓存的区别

回写缓存:数据被存入缓存,主机立刻得到响应,一段时 间后,多个写操作的数据被一起提交到磁盘,写响应时间加快,因为写操作和磁盘的机械延迟被分开了。然而,如果缓存遇到故障,未被提交 的数据有丢失的危险。

透写缓存:数据被存入缓存并立即写到磁盘中,然后响应被送到主机,因为数据在收到时就被写入磁盘,数据丢失的危险性很小,但是因为需要磁盘操作,写响应的时间会比较长

智能系统的组成

前端、缓存、后端、磁盘

高中端存储系统的区别

高端存储系统:主要针对大型企业应用,配备了大量的控制器和缓存内存。主机可以利用任何可用的路径去访问它的 LUN

中端存储系统:适合中小企业的应用,在较低的成本下实现了很好的性能。主机只能通过到该 LUN 的控制器的路径进行访问 两个控制器,可扩展性差

SAN三个核心特征

光纤通道、SAN、IP SAN

什么是fabric

一个 fabric 是一个逻辑空间,所有的节点都可以在其中互相通信。这个虚拟空间可以通过一个交换机或一个交换机网络来构建,每个在 fabric中的交换机包含唯一的域标识符。

描述SAN连接

三种方案:
点对点直连
通过一个仲裁环(FC HUB)通过环获得权限
交换机(FC SW)

SAN的优势

高带宽
SCSI扩展
资源整合
可扩展性
安全的访问

ISL 目的

ISL协议用于实现交换机间的 VLAN 中继。他连接两台交换机用于传输数据。

FC-2

分区的目的

分区是一种 FC 交换机的功能,它使得节点在一个 fabric 里可以被逻辑上分为不同的组,且在组间进行互相通信。分区实现了更好的通信控制,因为只有同属一个分区的成员才可以互相通信。

什么是核心边缘结构

核心-边缘 fabric 是一种拓扑结构。在核心-边缘 fabric 中有两种类型的交换机层,边缘层通常由多个交换机组成,边缘层的交换机通过 ISL 与核心层的交换机连接。核心层通常由企业级导向器组成,以保证 fabric 的高可用性。 在核心-边缘拓扑中,边缘层的交换机彼此之间并无链接。

SAN 虚拟化

两种 SAN 环境下的虚拟化技术:块级存储虚拟化以及虚拟 SAN。
块级存储虚拟化:将块存储设备 LUN 集合,实现了独立与底层物理存储的虚拟存储配给。SAN 中的虚拟层对物理存储设备做抽象化处理,创建了一个容纳不同存储设备资源的存储池,虚拟卷从存储池中创建,然后分配给主机。资源地址不再指向存储阵列中的某些物理卷,而是指向虚拟层中的虚拟卷。虚拟层将虚拟卷与存储设备中的 LUN 进行映射,映射操作对于主机是透明的。块级存储虚拟化可以实现存储卷在线的扩展,并实现了不同卷的透明访问。它还提供不中断的数据迁移。

虚拟 SAN:是 FC SAN 上的一个逻辑 fabric.一组节点,无论在 fabric 中的物理位置如何,都可以进行通信。每个 VASN 可看做是一个 fabric,有自己的 fabric 服务。一个 VSAN 的 fabric 配置不会影响另一个 VSAN 的流量。

##SAN的组件
主机总线适配器 (HBA)
光纤布线
光纤通道交换机/集线器
存储阵列
管理系统

原生和桥接的 iSCSI 实现之间的区别?

原生模式的拓扑结构中没有任何的 FC 组件。iSCSI 发起方可以直接连接到目的方或通过IP 网络连接到目的方。

桥接模式通过提供 iSCSI 到 FC 的桥接功能,以实现 FC 与 IP 共存。

iSCSI 原生模式:对于一个支持 iSCSI 的存储阵列,实现 iSCSI 连接不需要任何 FC 组件,阵列有一个或多个 iSCSI 端口配置了 IP 地址,连接到标准以太网交互机上,发起方登录到网络后,可以访问存储阵列中的可用 LUN,单一阵列端口只要有足够的存储流量处理能力,就可以同时服务多个主机或 iSCSI 发起方。

iSCSI 桥接模式的解决方案需要 FC 组件。iSCSI 发起方将桥接器的 IP 地址配置为目标方存储,另一端,桥接器也被配置为存储阵列的 FC 发起方。

说明使用 NIC, TOE and iSCSI HBA 的优点和缺点

标准 NIC 配合 iSCSI 发起方软件是最简单和最便宜的连接方案,主机 CPU 可能成为瓶颈。
TOE 可以自己完成 TCP 的管理.而仅将 iSCSI 的功能交给主机 CPU 来实现。
iSCSI HBA 则可以提供性能上的优势,因为它独自承担整个 iSCSI 功能和TCP/IP 处理。

两个发现iSCSI机制

发送目标发现和网络存储名称服务

##两种名字

IQN和EUI

FCoE的物理要素

CAN
交换机

NAS组件

CPU 和内存 网络接口 存储接口 操作系统

NFS、CIFS 以及其他用于文件共享的协议

存储系统

NAS优点

支持全局信息访问
通过对文件服务器的专用操作来提高效率
灵活性
集中化存储
简化管理

##NAS系统使用什么协议

NFS、CIFS

集成NAS和网关NAS的区别

网关式 NAS 扩展性比统一 NAS 好,因为 NAS 头和存储阵列可以独立的根据需求进行升级。例如,可以通过增加 NAS 头的方式提升 NAS 设备的性能。

集成:存储和机头在一块 网关不在一起

CAS核心特征

数据完整性 内容真实性 位置无关性 数据保护 单实例存储 强制保留期

CAS好处

安全性和可靠性 位置无关性 数据保护 单实例存储 检索记录快 扩展性 成本低

2个企业应用

医疗保健行业解决方案:病例存储

金融行业解决方案:财务数据存储

CAS逻辑组成

API 元数据 内容地址CA 访问协议

数据如何存储在CAS中

客户端将要归档的数据呈现给 API
计算出唯一的内容地址
发送给CAS
CAS验证地址保存对象
将确认返回给应用程序
对象ID保留并存储

##业务连续性解决方案解决哪些问题?

业务连续性是指做好充分准备,能够轻松应对会对业务运营造成不利影响的应用中断并从中进行恢复

业务连续性解决方案着力解决系统不可用、应用性能降低 和不可接受的恢复策略等问题

##RPO 和 RTO 之间有何区别?

恢复点目标 (RPO)
• 中断后必须将系统和数据恢复到的时间点
• 企业能够承担的数据损失量
恢复时间目标 (RTO)
• 一段时间,系统和应用程序在中断之后必须在此时间内恢复
• 企业能够承担或经受的宕机时间

灾难恢复 and 灾难重启动的区别

灾难恢复(Disaster Recovery):当灾难发生时为了支持重要的业务操作而进行的对系统、数据和基础架构的恢复等一系列的相互协调的过程。 灾难恢复是对以前数据备份的恢复并且应用日志或其他必要方式将备份恢复到一个已知一致性位置的过程,一旦完成了全部恢复,未确定数据正确必须对其进行验证

灾难重启动(Disaster Restart),指利用基于镜像的、一致的数据和应用的备份重新启动业务操作的过程。

举例说明计划性中断和非计划性中断

计划性中断都是可预见且可安排的,但是仍然会引起数据不可用。包括新硬件的安装、集成和维护,软件升级或补丁、进行备份、应用和数据的恢复、设备操作以及对生产环境测试的刷新和迁移

非计划性中断包括人为失误、数据库损坏以及物理或虚拟部件损坏引起的故障。另一种则是自然或人为的灾难

商业组织关注于什么

业务连续性:能持续访问数据是业务操作正常执行别的必须满足的前提。
保护物理资源和虚拟资源,简化业务连续性策略和方案的实现。

单点故障举例

VM HBA 物理服务器 IP网络 FC交换机 存储端口 存储阵列

备份的三个目的

灾难恢复,业务性恢复和归档

描述备份/回复的三大主要考虑点

数据丢失量 停机时间 保留期

支持备份的三个科技

line SAN 直连

磁带和虚拟磁带备份的优缺点是什么?

与物理磁带比较,虚拟磁带提供更好的单数据流性能、更好的可靠性和随机磁盘读写性能。备份和恢复操作受益于磁盘的随机访问特性,这是因为虚拟带库总是处于在线状态,且具备更快备份和回复速度。虚拟磁带并不需要与物理磁带相关联的维护任务,与备份到磁盘设备相比,虚拟磁带是预先配置好的,其安装和管理更容易。 但是虚拟磁带库一般只用于备份用途,在被分在磁盘环境中、圣餐数据 和备份数据都可以使用磁盘。

三种备份方式

**全备份:**指的是对生产卷上的所有数据进行完整备份,全备份副本由复制生产卷上的存储设备而得到。恢复较快,但是消耗空间加大,备份时间也较长。

增量式备份复制自上次全备份或增量式备份以来(取二者中较晚者)修改的数据,由于仅限对修改的数据进行备份,因此备份非常快,但是恢 复起来却很耗时;

累积式(或者差分式)备份复制自最后一次全备份以来修改的数据,这种方式备份时间比增量式长,但是恢复较快。

你可能感兴趣的:(DLUT记录,分布式存储)