华为网络大赛-存储基础原理

pdf 有很多内容
1、SAS；2、SATA；3、NL-SAS；4、SCSI；5、IDE。请对上述五种类型的接口速率由慢到快进行排序，选择正确的一项？ 54231

01.什么是存储？

1.存储与数据：存储是存放和保护这些数据的载体
2.数据的重要性：数据为企业的日常运营提供支撑，企业依赖数据进行分析，以便更好的进行决策。
3.数据的特点：高价值，高增长，多样化的特点
4.狭义的存储：是指具体的某种设备，比如以前的软盘，CD，DVD以及硬盘等
5.广义的存储：指的是数据中心里面使用的存储设备，里面包含了存储硬件系统，软件系统、存储网络和存储解决方案
解释如下：服务器通过存储网络才能够访问存储硬件系统中的数据，存储软件系统对存储中的数据提供管理，将多种存储硬件和软件组合起来形成解决方案，可以满足业务较高的数据管理需求，比如数据整合的解决方案，容灾备份的解决方案
6.业务和存储：
当今的存储是广义的存储，是一种复杂的用来存储和管理企业重要信息的系统。
存储对业务的进行处理和数据保护。

存储发展历程
1．存储发展历程的两个推动力
【1】用户业务的需求【2】技术上的不断提升
2.早期的存储
早期的服务器和存储是一体的。
CPU的主频较低，内存比较小，硬盘的容量也不大，业务要求也没有那么多。
3.存储的发展
后来随着IT建设，越来越多的业务系统运行在服务器上，硬盘的性能、容量、可靠性方面已经很难满足业务的需求，便考虑把硬盘从服务器剥离出来，形成专用的存储系统。即为DAS！
4.DAS存储形态---JBOD
JBOD主要实现了硬盘的外置，从而提升了容量，但是数据控制管理工作依然由服务器负责，因此，服务器仍然由额外的开销。
5.DAS存储形态---智能化
智能化的DAS存储，将数据管理和控制以及访问功能集合在一起，服务器只需要关注数据读写即可。
6.集中式存储---SAN和NAS
SAN是通过SAN的网络来连接服务器，服务器看到的是一个个的块设备，是当作一个个的硬盘来识别的。服务器存储数据，首先要在服务器用文件系统来格式化，之后数据就可以进行数据的读写。往往SAN可以用在数据库的场景，来存储结构化的数据。
NAS：早期NAS主要是面向办公的数据共享，特点是把服务器的文件系统放进了存储里，这样服务器通过网络就可以共享数据。现在NAS主要面对的是非结构化的数据的存储。比如，企业员工用于办公文档的共享和存储
7.SAN和NAS存储的应用
目前，几乎所有的数据都是存放在这两种形态的存储上。
海量存储、统一存储（灾备中心）
8.结构化数据与ＳＡＮ
纯粹的SAN，就是只能提供结构化的数据存储和访问的存储。目前主要是高端的，比如：IBM DS8000 、VSP这种高端阵列。中端的SAN越来越少，新兴的是固态存储，他主要是面向对于性能要求比较高的场景，往往是应用在大企业的核心类的业务里面。
9.NAS的存储形态
目前，NAS主要由两种形态
【1】一种是NAS网关，它存在的事件已经非常久了，通常用户会在SAN存储的前面，加一个网关，网关对外提供NAS的服务
【2】另外一种是大数据的海量存储，提供极强的扩展能力。这一类比较典型的代表有：EMC Islion以及华为的OceanStore 9000
应用场景的区别：两者NAS的应用场景不太一样，前者主要是用在文件共享和VDI等应用场景，而后者因为容量扩展性好，一般用在媒资库、视频监控、高性能计算等场景。
10 统一存储---SAN+NAS
现在的主流形态是：SAN+NAS双剑合璧，就是我们常说的统一存储；
但是由于历史的原因，出现了两种形态
【1】一种是像华为的OceanStor V3、NetApp的FAS和HP的3Par,属于我们说的最佳形态，单套存储系统直接支持SAN和NAS，不需要额外的购买NAS网关，做到真正的统一。
【2】另一种像EMC的VNX，则仍需要附加NAS网关，只是管理层面做了统一。

03 存储与应用环境
01计算机系统架构
软件基础分类（硬件基础没讲）
软件资源：应用软件、操作系统、集群和分布式软件、存储要用到的分布式文件结构、多路径、初始化软件应用
计算资源：主机和服务器，集群化环境。解决大数据下业务处理的服务器
网络资源：解决上层业务通过主机处理后需要传输到下面的存储或者其他设备要用到的网络化承载。
网络化承载通道: 基于IP化承载和基于FC的承载。
IP化承载采用现阶段已有设备支持，如交换机、防火墙、路由器等，或者现有网络代替。
FC化承载需要重新搭建新的存储环境，需要光纤、光模块以及光纤的网络交换机。成本高、距离比IP化短。不适用于容灾备份架构。
4.存储资源：所有硬件存储设备。
存储资源分三部分：DAS直连化存储Direct-Attached Storage；SAN存储区域网络Storage Area Network；NAS网络接入式存储Network-Attached Storage
02 IT架构变化
内部变化：通过软盘、光盘等完成数据存储
a）存储应用：存储从上层应用到存储介质，需要经过主机、服务器，理解为内部存储环境。
b)内部存储环境：上层业务应用I/O请求到操作系统，然后调用文件系统找到相应存储介质
c)设备（内部存储速率因素）：
CPU:组成运算单元、控制单元、存储单元。
性能因素：工作频率、缓存（1、2、3级缓存）容量越大，工作频率越高，越好。内存同理。
内存：两大变化。
SDR内存：同步动态随机存储寄存器。速率小、频率低、数据量有限，会被淘汰啦。
DDR内存：双倍率同步动态随机存储寄存器。性能因素：容量、带宽、主频。
总线：
计算机总线:计算机内部传输通道，CPU\内存间传输
主机总线：外送到网卡、显卡等
I/O总线：U盘、外置硬盘等
2.外部变化：一基于数据块存储的架构（主流），如SAN\DAS；二文件共享式存储，比如视频、图片，用NAS；三，对象存储 a)网络化存储架构
单独会被集群化部署在集群环境中，中间通道不再是主机直连存储，而是网络代替原来总线实现的方式。
b)分类
主机和服务器：数据处理和运算，通过主机后置的FC-HBA卡（主机总线适配器(Host Bus Adapter,HBA)）或者IP-HBA卡去把数据传输到外界。
网络：因为需要承载通道。有基于IP架构网络或者FC网络架构。
存储设备：NAS\DAS\SAN
03其他
存储需做备份、容灾。So备份体系架构，虚拟磁带库或物理磁带库。
04 存储介质和接口
01机械硬盘
机械结构：盘片，数据存放；主轴，驱动盘片；磁头组件，维持磁头高速运转；接口；控制电路，内部供电。
电子化结构：主控芯片，数据控制；数据传输芯片，数据存储或读取；高速缓存芯片。
各部分功能
磁头，盘片附带无规则磁性材料，磁头使其有规律；
盘片，有启停区，位于最内部；数据区，磁道，磁道越多，磁盘容量越大，并不是一块一块磁道写，而是一片一片扇区写，一般为8K。柱面，所有磁道在同一位置的区域称柱面，条带化存储。

4.主要参数：硬盘容量，跟盘片有关；转速；缓存，越大越好；平均访问时间，分平均寻道时间（启停区到数据区，8ms-11ms）和平均等待时间（到磁道位置但没到扇区位置,4ms-10ms）；传输速率，分内部传输速率（磁盘写入数据的过程）和外部传输速率（通过接口）。
02SSD硬盘
def:摈弃机械硬盘的机械元件，都是芯片完成。
分类：分控制单元和存储单元。存储单元，有FLASH（主流），可移动外置，支持热拔插；SSD，内存式存储，应用在系统中存储。
03硬盘接口
ATA接口：高速。并行ATA技术，称IDE磁盘，业界最高133Mbps
SCS接口：实现串行，外置，小型设备。主流320MB/s
SATA接口:串行实现ATA技术，点对点，热拔插。最低150MB/S,主流300MB/S,小型可移动设备。
SAS接口：串列SCSI(Serial Attached Scsi) 价格高，串行SCSI接口，点对点，全双工，双端口，正常600MB/S，可达1G。主流
FC接口：光纤通道接口。长距离，成本高。主流
05 RAID技术及应用一
01概念
产生：大数据下大批量存储容量的技术
def：独立冗余磁盘阵列。
分类：采用分条带方式；采用校验和镜像方式进行安全式保护。
实现方式（截图）
02分类
1.技术
条带def：在同一个磁道上选择同一个扇区或者多个扇区组成的区域。是切分硬盘条带深度的单元。数据库条带深度小，图像条带深度大。
分条def:多块硬盘的同一个磁道同一个扇区的条带。要求：磁盘容量、传输速率和接口都保持相同。
2.安全保护
校验
原则：相同为假，相异为真。磁盘数据+校验盘数据得知丢失数据。
镜像：存储多份。缺点：数据写到多个磁盘上，磁盘可利用率低，一般为50%。
03主工作状态
RAID组创建：选择相同硬盘组合在一起形成。-->RAID正常工作状态：映射给主机或者映射给服务器。-->RAID组降级：某些磁盘掉线或故障。-->RAID重建状态：将RAID组降级完状态回到正常工作状态。-->RAID组失效状态：校验数据发现第二个盘数据丢失，不能正常工作，需要重新格式化。
04常见RAID级别：
RAID0：条带化存储，无校验，无镜像。多块硬盘读写，读写性能最高。数据传输速率也高。缺：无校验无镜像，一旦出错需格式化。
RAID1：条带化存储，无校验，有镜像。允许有一份数据丢失，一份数据写在多块磁盘，读类似RAID0，写和存比RAID0差。
06 RAID第二部分（RAID 3、5、6、10、50）
RAID 3：条带化存储，有校验，校验信息存放于专用硬盘。RAID3校验盘容易出现负载过大的情况，导致故障，校验盘失效。写入数据是最慢的，因为通过单独的校验盘算数据，这个校验盘就成为了RAID3写数据的瓶颈。读取数据则采用多块盘同时读取，速度会相对较快。因为有校验盘存在，所以出现一块磁盘失效的情况，可以通过校验盘进行数据恢复，带有一定安全性。
RAID 5：条带化存储，有校验，校验信息均匀分布在阵列所有磁盘上，所有磁盘既有数据信息也有校验信息。将单块校验盘分散到所有磁盘上，减小校验盘出现负载过大故障的概率，同时突破但磁盘瓶颈，写入数据也更快。读取数据同RAID0、1、3。RAID5也允许一块盘出现故障，通过剩余盘算出丢失数据。
RAID 6：针对超过一块磁盘出故障RAID3、5无法解决的情况。采用两次奇偶校验方法，校验数据分散在不同的盘上或两块独立校验盘上。
RAID 6有两种实现方式：
RAID 6 P+Q：将两次校验数据分散在不同磁盘上。相当于通过两次RAID 5过程恢复数据，先通过一次RAID 5算出校验数据P，再算出Q。因为要两次校验，写入数据效率一般，数据读取相对较快。可以允许两块盘同时出故障，做到数据恢复。
RAID 6 DP double parity：两块专属磁盘存放校验数据。RAID 6 DP也是两次校验，首先完成P的校验，再通过斜向数据完成DP校验。RAID 6 DP两个磁盘都是单独做校验，同RAID3一样故障概率较大。写入速度慢，读取相对快。可以允许两块盘同时出故障。
RAID 10：业界使用最广泛。分成两个级别，首先完成RAID 1的过程，再完成RAID 0的过程，至少需要四块硬盘。包含了RAID 1和RAID 0的特征，有镜像冗余可以恢复数据，也有RAID0存取快的特征。可以允许两块坏盘（不在同一RAID 1区内）。
RAID 50：高性能的RAID场景，通过两次RAID完成，一次RAID 5，一次RAID 0。至少需要6块硬盘。数据既有RAID 50的冗余，又有RAID 0读写快的特征。比RAID利用率高
总结：
RAID 0：磁盘利用率最高，读写性最高。更多应用在对数据安全性要求较低但要求读写性能的场景，如：文本编辑工作站、图像工作站、视频剪辑；
RAID 1：提供镜像冗余设计，数据读相对快，写入慢，磁盘利用率低（1/2）。更多应用在对数据安全性要求高的场景，如：数据库；
RAID 3：提供单独的校验盘存储数据，写入最慢，读性能高，磁盘利用率N-1；
RAID 5：性能比RAID 3高，写性能比RAID 3高比RAID 0低，磁盘利用率N-1；
RAID 6：磁盘利用率N-2，经过两次校验，数据写入慢，读取高；
RAID 3、5、6适用于邮件服务器、文件服务器等；
RAID 10：磁盘利用率同RAID 1为N/2，数据读取快，写入一般，处于RAID 0和RAID 3、5之间；
RAID 50:奇偶校验+冗余，磁盘利用率N-2，数据读取快，写入低，因为和RAID 5一样需要校验。

重点是RAID 5、RAID 10、RAID 50、RAID 6四个级别，在目前IT架构下应用场景较广。
07 存储阵列技术及应用
01组成
分类：盘控一体化架构，盘控分离架构。
控制框部分：处理、管理。
以S5500为例，接口分A控和B控。有管理网口、维护网口、串口、连接存储阵列需要SAS级联接口、FC主机端口。

2.硬盘框部分：存储数据。

系统插框：通过这完成系统插件。
风扇、电源模块：1+1冗余设计
级联模块：扩容。
硬盘模块：对外提供存储容量
02华为存储管理工具—ISM integrity storage manager
功能
安装
发现新设备
页面介绍

08 SAN技术及应用
01概念
def:存储区域网络。
分类：FC SAN; IP SAN
连接方式：
直连组网。缺点：只能为一台服务器
单交换组网：可以给多台服务器。缺：应用服务器和交换机之间只有一条链路,只能为一台服务器存储。
双交换组网：至少两台交换机、两条链路。
4.SAN组成部分：主机总线设备卡，HBA卡
光纤线
光纤交换机和以太网交换机
存储阵列设备
02SAN架构
SAN FC：光纤作为承载通道。基于FC协议栈，其组成，FC0：物理交换，定义物理层介质；FC1，编码解码；FC2，结构协议，帧流控制；FC3，加密；FC4，协议封装。
分类：
点对点FC-PTP：只能连接2设备。直连。只能为一台服务器提供
仲裁环FC-AL：通过集线器一个环路上工作。有一个出问题，整个环路出问题。
交换式FC-SW：通过交换机，2条链路，冗余式设计。
IP-SAN：承载TCP/IP协议存在。
分类：
以太网卡+软件方式：以太网卡把数据包通过网卡传到外界
硬件TOE网卡+软件方式：把原来以太网卡业务分在TOE网卡中。
ISCSI HBA卡方式：即完成数据封装和数据发放。最常用
3.FC SAN和IP SAN区别

9 NAS存储
01 概念
def：网络附属存储。有自己的文件系统和操作系统管理数据。
拓扑结构
对外提供的协议：不同服务器不同。WIN用CIFS协议,UNIX用NFS协议

CIFS：通用互联网文件系统。截图
NFS：网络文系统。截图
区别：NFS需要安装软件，对网络安全性要求低。
02 NAS系统架构
NAS引擎：实现文件系统和操作系统支持
网络接口：提供交互的网络协议
存储阵列：自己本身的存储阵列也可包容SAN环境
03 NAS文件系统IO与性能影响
因素：主机、网络、NAS本身内部。
04 NAS与SAN对比
截图

RAID 热备盘、预拷贝、重构
RAID --> LUN

RAID2.0 优势：使得各磁盘均衡分担负载，不再有热点硬盘，提升了系统的性能和硬盘可靠性
快速精简重构
提升单LUN性能，且其上的数据可以根据数据的活跃度，自动调整，迁移到存储池的不同存储层 --> SmartTier
SmartThin: 存储容量虚拟化，按需分配，可在线扩容，容量管理自动化，告警阈值
写时空间分配：Capacity-on-write
读写重定向：Redirect-on-time
读写流程均如下：

SmartQoS基于令牌桶原理

IOPS计算方法传统磁盘本质上一种机械装置，如FC, SAS, SATA磁盘，转速通常为5400/7200/10K/15K rpm不等。影响磁盘的关键因素是磁盘服务时间，即磁盘完成一个I/O请求所花费的时间，它由寻道时间、旋转延迟和数据传输时间三部分构成。寻道时间Tseek是指将读写磁头移动至正确的磁道上所需要的时间。寻道时间越短，I/O操作越快，目前磁盘的平均寻道时间一般在3－15ms。旋转延迟Trotation是指盘片旋转将请求数据所在扇区移至读写磁头下方所需要的时间。旋转延迟取决于磁盘转速，通常使用磁盘旋转一周所需时间的1/2表示。比如，7200rpm的磁盘平均旋转延迟大约为60*1000/7200/2 = 4.17ms，而转速为15000 rpm的磁盘其平均旋转延迟约为2ms。数据传输时间Ttransfer是指完成传输所请求的数据所需要的时间，它取决于数据传输率，其值等于数据大小除以数据传输率。目前IDE/ATA能达到133MB/s，SATAII可达到300MB/s的接口数据传输率，数据传输时间通常远小于前两部分时间。因此，理论上可以计算出磁盘的最大IOPS，即IOPS = 1000 ms/ (Tseek + Troatation)，忽略数据传输时间。假设磁盘平均物理寻道时间为3ms, 磁盘转速为7200,10K,15K rpm，则磁盘IOPS理论最大值分别为， IOPS = 1000 / (3 + 60000/7200/2) = 140 IOPS = 1000 / (3 + 60000/10000/2) = 167 IOPS = 1000 / (3 + 60000/15000/2) = 200 固态硬盘SSD是一种电子装置，避免了传统磁盘在寻道和旋转上的时间花费，存储单元寻址开销大大降低，因此IOPS可以非常高，能够达到数万甚至数十万。实际测量中，IOPS数值会受到很多因素的影响，包括I/O负载特征(读写比例，顺序和随机，工作线程数，队列深度，数据记录大小)、系统配置、操作系统、磁盘驱动等等。因此对比测量磁盘IOPS时，必须在同样的测试基准下进行，即便如何也会产生一定的随机不确定性。通常情况下，IOPS可细分为如下几个指标： Toatal IOPS，混合读写和顺序随机I/O负载情况下的磁盘IOPS，这个与实际I/O情况最为相符，大多数应用关注此指标。 Random Read IOPS，100%随机读负载情况下的IOPS。 Random Write IOPS，100%随机写负载情况下的IOPS。 Sequential Read IOPS，100%顺序负载读情况下的IOPS。 Sequential Write IOPS，100%顺序写负载情况下的IOPS

RAID数据保护
hot spare: 全局热备盘、局部热备盘
预拷贝：监控发现RAID组中某成员盘即将故障失效，则提前将数据拷贝到热备盘中，有效降低数据丢失风险
重构：RAID中发生故障的磁盘的所有数据将重新生成，并将数据写到热备盘上

华为网络大赛-存储基础原理

你可能感兴趣的:(华为网络大赛-存储基础原理)