roarrabbit

数据安全笔记

导读与大纲

2020/03/10

数据备份 -> 防止灾难、意外事故造成损失

数据恢复 -> 灾难发生后，尽可能拯救数据

网站推荐：

https://www.dgxue.com/huifu/ 数据恢复迷

数据备份

数据存储介质

硬盘、磁带、光盘
- 主流与趋势
- 市场调查

存储系统结构(重点)

存储系统结构(重点)
- DAS、NAS、SAN
  - 各个存储架构的组成、技术特点、应用
  - 能够设计合理的存储架构

存储新技术

虚拟化、节能技术
- 分级存储于管理、数据自动迁移、重复数据删除技术、自动精简配置、MAID技术
- 能够根据需要使用配置相关技术

数据容灾技术(重点)

容灾系统、容灾策略及方案
- 能够设计合理的数据容灾系统

数据恢复

磁盘内部物理和逻辑结构

磁盘部件
工作原理
逻辑结构划分
分区设定(难点)

FAT文件系统(难点+重点)

系统结构
文件记录方式
数据存储方式
数据的查找与恢复

NTFS文件系统(难点+重点)

windows主流文件系统

系统结构
文件记录方式
数据存储方式
数据的查找与恢复

RAID磁盘阵列(难点+重点)

阵列类型
特点与参数
阵列恢复方法

数据恢复工具

PC3000
Winhex

16进制编辑软件
其他数据恢复软件

傻瓜式恢复软件

数据备份 - 数据存储介质

光存储设备

光存储设备常被简称光驱，光存储设备所使用的存储存放介质被称为光盘，由于其存储容量大、价格便宜、保存时间长，是许多软件和数据采用的存储介质。从CD、DVD再到HD DVD和BD，光盘存储量越来越大，技术也越来越先进

光存储设备的种类

光存储设备分为台式内置光驱、笔记本内置光驱、外置通用光驱三种

台式内置光驱

台式内置光驱安装在主机箱内部，是DIY市场中最为普遍的光存储产品类型
笔记本内置光驱

笔记本内置光驱强调薄、轻、省电、价格高，其牢固度要远低于台式机内置
光驱
外置通用光驱

外置通用光驱则是通过外部接口连接在主机上，主要是针对需要移动工作的
用户，更多的是强调移动性，在性能、其数据传输率、体积、重量等方面都
受到制约，要逊色于内置式光驱，而且价格要远远高于内置式

按读写光盘的类型分类

DVD-DOM驱动器

一种可以读取DVD盘片的光驱，兼容DVD-ROM、CD-ROM等常见的格式

DVD-ROM驱动器分台式机内置型、笔记本内置型和外置型三种

DVD的单倍速是指1358KB/s，而CD的单倍速是150KB/s，大约为
CD的9倍

目前DvD-ROM驱动器所能达到的最大DVD读取速度是18倍速最大数据传输率为27MB/S，缓存容量从198K至256K不等。接口类型有IDE和SATA两种。安装方式分内置和外置两种
DVD刻录机

可写光盘

DVD刻录规格并没有简历起统一的规格，目前有三种不同的刻录规格：DVD-RAM、DVD-R/W、DVD+R/W，而且三种规格相互不兼容，主流为DVD-R/W、DVD+R/W

目前多数刻录机都支持 DVD-ROM，DVD+R DL，DVD+R，DVD+RW. dVD-R DL，DVD-R，DVD-RW，DVD-RAM，DVD Video，CD-ROM，CD-R，CD-RW等多种类型
蓝光刻录机

蓝光刻录机是基于蓝光DVD技术标准的刻录机
DVD使用MPEG2压缩技术，可以存储广播级效果的电影

光存储设备的工作原理

光存储设备的外部结构
读取数据的工作原理
- 光盘上存在着凹点和凸点
  凹0 凸1，突起的地方表示1，凹陷的地方表示0
  
  详细：光盘上存在着“凹点”和“凸点”两种状态，它们的反射信号正好相反，这两种不同的信号很容易就能被光监测器识别，在光驱中有专门的部件将它们转换并校验，再交给光存储设备中的控制芯片处理，然后就会在计算机中得到光盘中的数据。
- 不同类型的光盘主要区别是激光头产生的不同波长
  
  激光头会产生0.54μm~0.78μm
- 激光波长：
  - DVD：650nm
  - CD：780nm
刻录数据的工作原理

只有具备刻录光盘功能的光存储设备才能在特定的光盘中刻录数据。
CD刻录机是在 CD-ROM的基础上发展起来的光存储设备，可刻录的光盘类型有CD-R光盘和CD-RW光盘

DVD刻录机是在DVD-ROM的基础上发展起来的光存储设备，可刻录的光盘类型有DVD-R、 DVD-RW、 DVD-R DL、DVD+R、DVD+RW、DVD+R DL、DVD-RAM、CD-R、CD-RW等9种格式的光盘。

具体过程：可刻录光盘是在聚碳酸酯制成的片基上喷涂了一层染料层，激光头根据刻写数据的不同控制发射激光束的功率，使部分染料受热分解，在空白的光盘上用高温“烧刻”出可供读取的反光点，由于染料层分解后不能复原，因此DVD-R光盘只能烧刻一次，而RW由于染料层的不同，可以反复刻写。
光存储设备的性能指标

衡量光驱性能指标的最重要参数是数据传输率，其他还有平均寻道时间、数据传输模式、CPU占用时间、缓存容量以及
纠错能力等。
1. 倍速
  1. CD-ROM基准倍率为150Kb/s(1x) 如50x光驱的数据传输速度为7.5MB/s
  2. DVD基准倍率为1.35MB/s(1x) 如20x光驱的数据传输速度为27MB/s
  3. BD-ROM基准倍率为4.5MB/s(1x)
  最大数据传输速度指激光头在光盘最外圈读写数据所达到的最大值，光盘内圈数据传输速度大约为外圈的一半左右。
2. 多格式支持
  
  DVD-ROM光盘驱动器能支持和兼容读取多种盘片
3. 缓存容量
  
  高，因此缓存容量对光驱的性能影响相当大。目前普通光驱大多采用198KB_{256K缓存容量，而刻录机一般采用2}8MB缓存容量。
4. 接口类型
  
  市面上主要有IDE、USB、SCSI和SATA，SCSI接口的CD-ROM价格较贵、安装较复杂，且需要专门的转接卡
  
  现在的DE接口的传输速率最高可达133MB/s，SATA150接口的传输速率最高可达150MB/s，而18倍速的 DVD-ROM的实际需要的速度只有18*1358KB/s=24.444MBs，选用哪种接口基本都能满足传输速度要求。
5. 纠错能力
  
  光驱对一些数据区域不连续的光盘进行读取时的使用能力。
  
  其中对比明显为兼容性差的国外的光驱不能读取盗版的光盘，而国内的光驱兼容性强可以读取盗版光盘
6. 震动、噪音和发热

光驱常见故障

光盘概述

优点：

写入后不可修改，成本中等，维护成本低

成本低
- 每张成本不过一两元甚至更低
使用寿命长！
- 合理使用一般会在100年左右
- 抗干扰能力强
便于携带

光盘的分类

CD-ROM光盘
DVD-ROM光盘

DVD-ROM光盘的容量是CD光盘的7倍，为了在相同面积内装载更多内容，DVD光盘釆用了更高密度的(螺旋)轨道间隙设计，从以往CD的1.6微米减小至0.74微米。数据凹槽的(宽度)尺寸从CD的0.83微米缩小到0.40微米。更小的数据凹槽需要更短波长的光束才能正确读取，因此DVD使用了640纳米波长的激光束(而CD的激光波长则为780纳米).存储一部长度为135分钟的电影通常需要4692Kbps的速率。换算成容量单位即为4.75GB，因此以此为标准规定了DD光盘的最初容量。
刻录机

除了只能读不能写的只读型ROM( Read-Only Memory，只读存储器)光盘外，还有可写一次-R( Recordable，可记录)与反复擦写RW(ReWritable，可重写)的光盘。它们除了可以被读取之外，还都能够写入数据。
CDR/DVD±R与 CD-RW//DVD+RW之间的差别是：±R只能写一次，不能擦掉后重写；而±RW则可以反复擦写。

DVD盘片格式分类

DVD-RAM规格
DV-RW
DVD+RW
DVD-R与DVD+R
DVD-Multi与DVD-Dual

其中+R好过-R，-R光头定位进度低寻址方式的信号识别度较差，+R则精度高寻址方式比前者好

BD与HD的蓝光盘

BD

蓝光盘的容量大，添加了硬质塑料或聚合物外壳，盘片的保护性好；但与现有DvD不兼容，而且制作成木较髙，播放机的销售价格也较贵
BD视盘采用的是MPEG2、MPEG4/AVC(H.264)和VC-1视频编码，音频则采用了 Dolby Digital(AC3)、DTS和LPCM(可达7.1声道)编码，可选 Dolby Digital Plus和无损的Dolby TrueHD与 DTS HD
HD

HD DVD采用MPEG-4AVC、VC-1和MPEG2视频编码，采用DolbyDigital Plus、DTS、 Dolby digital(AC3)和 MPEG Audio等有损编码和LPCM、MLP( TRUE HD双声道]和 DTS HD等无损编码

光存储设备选购指南

品牌

售后
读盘能力

单激光头和双激光头
接口和缓存

IDE和SATA，推荐SAA
区码的限制
倍速
多格式支持

刻录机的选购

兼容性
稳定性
关头系统
读写倍速
区码问题
售后服务

磁带存储技术

磁带存储器的读写原理基本上与磁盘存储器相同，只是他的载体是一种带状塑料叫做磁带，写入时可通过磁头把信息代码记录在磁带上，当记录代码的磁带在磁头下移动时，就可在磁头线圈上感应出电动势，即读出信息代码
磁带存储器由磁带机和磁盘两部分组成

发展历程

1949年，磁带从实验室诞生，1952年，IBM的第一个磁带单元IBM 726问世，磁带由像以前电影播放的大机柜到后面的小盒子

磁带类型

磁带根据读写磁带的工作原理，可以分成六种规格

其中两种采用螺旋扫描读写工作
另外四种则是选用数据流存储技术设计的设备

螺旋扫描读写方式

面向工作组级的DAT(4mm)磁带机
面向部门级的8mm磁带机

数据流春初技术设计的设备

单磁头读写方式
磁带宽度为1/4英寸
面向低端应用的Travan和DC系列
DLT和IBM的3480/3490/3590系列

磁带技术介绍

硬件
- 单轴
- 双轴
记录方式
- 螺旋
- 线性
磁带宽度
- 4毫米
- 8毫米
- 1/4英寸
- 1/2英寸

线性扫描记录

磁头和磁带之间会有接触(摩擦)，会磨损对寿命会减少，也会被干扰灰尘

容量大

螺旋扫描记录

磁头倾斜着读取，相比于线性扫描记录好

定位块
寿命长

各种技术之间是不兼容的！！！

LTO技术

LTO(linear tape open)线性磁带开放协议，虽然是一直标准格式没的说并不互相兼容

由IBM、惠普与希捷联合建立，在磁带技术里速度最快、容量最大的磁带格式

IBM LTO/Ultrium-1
- 平均文件访问时间70s
IBM LTO/Ultrium-2
- 平均文件访问时间46s
IBM LTO/Ultrium-3
- 平均文件访问时间23s

DLT/SDLT

容量中等速度慢

SDLT-320
SDLT-640

AIT

容量小速度快

AIT-2
AIT-3

综合比较

备份介质比较

磁带机品牌

IT厂商

HP、IBM、Exabyte

存储厂商

Storage Tek、.....

磁带的保存

前期采购投入低，本身便宜但是后期维护成本高，存储协议之间兼容性差，磁盘存储不安全可被篡改，易丢失

整体保存时间为十年
温度(保存场地需要对温度进行控制)
- 过高会数据丢失
- 过低会磁带损失
湿度(保存场地需要对湿度进行控制)
- 湿度过高会导致磁带发霉
定期倒带导致老化
- 如果不定期倒带会导致寿命降低老化
磁带读写寿命短
- 一般磁带的读写次数不超过2000次

磁带库

基本组成

库体和机械臂
- 自动化介质管理的基础
- 机槭臂的性能和可靠性在特定环境中要求较髙
磁带机驱动器
- 类型：决定了数据昋吐能力、存储容量、数据査询速度，以及可靠性等基础指标
- 数量：决定了整个磁带库的总数据吞吐和处理能力
磁带戒指存储槽位
其他附属部件

磁带库构成示意图

驱动器

二维机械臂

自由旋转机械臂

企业级自带库机械臂运动方式

磁带仓

磁带标签

唯一的

驱动器的清洗

自动清洗
主机清洗
手动清洗

磁带的保存

整体保存时间为十年
温度
湿度

数据备份

以SAN为中心的告诉、大容量数据备份
传统的基于LAN的数据备份
进行数据级的灾难恢复：方式不可抗力导致的数据丢失

磁带库的应用领域

基本上只有归档存储的时候才会使用磁带库

海量数据的归档

为什么要使用磁带库

自动化管理大量磁带
自动化管理大量数据
消除人工误操作
提高数据保护和存储管理的效率

磁带库厂商

VTL技术介绍

概念

虚拟磁带库 virtual Tape Library VTL，由磁盘构成，性能虽然好但是由于磁盘所以前期价格比较贵

通过固化了专门软件的控制器，使磁盘(阵列)对主机或应用软件体现为常规物理磁带库，也称作虚拟磁带库。
标准的SCSI、FC或ISCSI主机接口，采用易用的管理软件配置、管理虚拟磁带库设备

虚拟磁带库架构

虚拟磁带库实现方式

纯软件方式VTL

整体性能一般、实现成本较低
专用服务器级VTL
- 新能比纯软件快、价格也比纯软件贵，数据受主机的影响小，不足是系统优化性较低
专用控制级VTL
- 性能比专用服务器级快

虚拟磁带库特点

去掉了机械手臂、磁带驱动器，传输速率高，但整体规模较大，不方便携带

虚拟磁带库
虚拟驱动器
机械臂
虚拟磁带
数据传输
数据增值服务
对备份应用的影响

细分

磁带库系统

不同虚拟磁带库架构之间是兼容的
- 同一个物理的虚拟磁带库设备，可同时虚拟成多个磁带库系统；有些设备可提供8个甚至更多
- 可同时提供数据备份
虚拟驱动器
- 全面支持现有物理驱动器类型
- 支持设备数量
  - 理论上没有数据限制
- 通用标准接口
机械臂
磁带
- 全面支持现有物理磁带类型
- 可自定义的数据容量格式
- 与真实磁带的全面兼容、可进行真实磁带和虚拟磁带间的数据备份
数据传输
虚拟磁带
- 数据压缩
- 重复数据删除
- 数据生命周期管理
- 数据加密
- 数据访问权限管理
对数据备份应用的影响
- 备份模式的转变
  D-D、D-D-T、D-VTL
- 数据备份与数据归档的渐行渐远，已逐渐不使用
- 对备份窗口的策略
  - 增量备份、差异备份逐渐转变为全备份

磁盘/磁带价格走势

逐年下降，磁盘接近磁带的价格

磁盘/磁带的应用规划

磁盘替代了许多磁带的应用领域

备份/归档存储方式规划

存储呈阶梯式存储简单说你可以将新能好价格高的硬件保留使用频繁的数据，将性能一般价格适中或性能低价格低的存储设备存放不经常使用的数据

存储方式不同
- 备份
  - 在线备份
  - 近线备份
  - 离线备份
  - 离线存档
- 归档
设备/介质选择不同

磁盘库优缺点

优点
- 超大容量，可实现PB级别数据存储，单位容量价格低
- 可移动介质，便于离线和异地保存，磁带可以直接移动
- 广泛的备份管理软件支持，备份策略均针对磁带库结构定制和优化
缺点
- 维护负担高
  - 磁带库的核心部件磁带驱动器为非封闭机械易损件，本身故障率高，灰尘、潮湿等使故障率不可预期，导致设备可用性差
- 备份容易出错
  - 采用磁带库进行数据保护的介质磁带为非封闭介质，且磁带库中的磁带之间没有容错保护。备份业务涉及到的磁带组中任一盘磨损、卡带、霉点、粘连等，均会导致整个备份无法恢复
- 备份恢复能力不佳
  - 虽然磁带本身的读写速度已有长足提高，但备份恢复时需要抓带、加载、机械定位文件等机械动作，等待时间长，而备份恢复时一般会设计多带查找，应用端被迫因此延长，而备份恢复时一般会设计多带查找应用端被迫因此延长待机时间

磁盘备份的优缺点

磁盘备份(D2D)的优点：
- 与磁带不同，基于ATA的磁盘阵列比传统的光纤通道磁盘阵列的成本低很多，同时逐渐变得非常流行，它可以方便集成到备份系统中
- 可以解决磁带库固有的问题
磁盘备份(D2D)的缺点：
- 以一个文件目录作为一个备份设备且只对应一个备份卷
- 备份数据通过文件系统写入磁盘目录
- 文件系统写速度慢
- 文件系统容易遭到人为破坏
- 备份策略需要重新制定

虚拟磁带库的优缺点

可成为在线应用与备份归档，可以处理数据量大要求速度快的场景

优点
- 方便集成、兼容性好，去掉了几乎所有磁带库的缺点
- 设备可用性提升：虚拟磁带用电子化的机械手和磁带驱动器，代替了机械磁带库中裸、易损的系列机械装置，基于RAID保护的磁盘阵列具备降级工作能力，且具自动报警和在线热恢复能力
- 备份可靠性提升：虚拟磁带库采用基于RAID保护的磁盘阵列，从而将备份的可靠性较常规磁带备份提高了若干量级。封闭式结构的磁盘介质本身的MTBF(平均无故障间隔)一般为开放式结构的磁带介质的5倍以上。
- 恢复工作极为渐变：如果所需数据存在VTL当中则不会设计任何机械工作，恢复工作就像磁盘备份的速度一样
缺点
- 备份介质不能直接移动，存储容量有限
- 价格高

常见的几种设备与存储方式

硬盘

什么是硬盘

硬盘HD

工作方式

磁电转换，硬盘存储数据是根据电、磁转换的原理来实现的
硬盘驱动器加电后，磁盘片由主轴电机驱动进行高速旋转，设置在盘片表面的磁头则在电路控制下径向移动到指定位置然后将数据存储或读出来。

硬盘发展简史

早期硬盘非常大所以没有使用，1968年沿用至今，硬盘也叫温盘

2000年3月，IBM推出“玻璃”硬盘，玻璃-为了降低成本通过将植物纤维提取制作而成，由于植物没有金属磁电能力好，所以后期亏本将其硬盘部门卖出给日本

2007年，硬盘进入TB时代，国内2015年才开始21

早期的硬盘

早期硬盘非常重也非常昂贵，由于当时非常贵，所以IBM用出租的方式盈利，早期DOS系统也很小，所以使用软盘就可以代替，此时硬盘为M级别

G级别的硬盘，最后那台机器为第一台自带硬盘的主机

小知识

为什么现在硬盘是c盘？因为，a盘留给了：软盘，b盘留给了：磁盘
磁盘(温盘)里面会保持气密性，会将里面的空气净化，磁头在读写中会与磁盘盘片精密接触，头发丝的距离，7200/60转一秒钟转120次，若有尘埃灰尘就会产生上下振动，若向下则会物理撞击，则会产生小坑，每过一次小坑则会产生振动导致产生更多的小肯
笔记本的硬盘较为特殊，会有移动监测区域，若超过阈值则命令硬盘停止工作移动至停泊区避免损坏硬盘
不到万不得已，若要开盘更换损害部件则要在超净台操作，开盘价格约在1500，超净台价格在几万到几十万不等

硬盘的结构

硬盘主要由：盘片，磁头，盘片转轴及控制电机，磁头控制器，数据转换器，接口，缓存等几个部分组成。

硬盘尺寸主要有5.25英寸和3.5英寸，现在普遍是3.5

笔记本的有2.5、1.8和0.9

硬盘的主要部件

拆解硬盘需要有内六角的起子打开，硬盘一旦拆开就要报废，左上角的为控制电路板，如今已经缩减为一半大小，中间的为盘片，盘片中间为液态轴承马达

硬盘的外部结构

外面都会有标签，都会标有编号、产地等信息

5VDC，5V五伏，DC直流电压

硬盘背面

绿色的为控制电路板，圆形是液态轴承马达

接口

固定面板

硬盘是整体密封的，与外界隔绝，内部防水防尘，

里面有个透气孔是为了防止热胀冷缩所以放了个透气孔保持内外气压平衡，透气孔是有过滤膜可防水的

控制电路板

其内部控制电路板可以说是一台完整的电脑，有CPU(中间最大的方框)有内存(左边长条的)

硬盘的内部结构

中间的液态轴承马达带动盘片旋转，读写磁头的磁头非常的小，支架里的马达带动传动手臂左右移动读写

机械硬盘的磁头技术

浮动磁头组件

磁头加点后高速旋转，与盘片接触间隙只有0.1~0.3μm

下面有4个磁头，磁头要动是一起动的

磁头技术

硬盘的接口

IDE、scsl、 Serial ata、UsB、 Fibre channel、EEE1394
最常见的就是|DE和Sera|ATA

IDE
SCSI
- 常用于服务器
- 优点
  - 性能好
- 缺点
  - 价格昂贵
SATA
- 接口是L型的防呆设计可防止差错
- 一般可电脑挂载2个大一点可挂载4个
- 特点
  - 针脚小，解决了干扰问题
SAS
- 串口连接
  - 传输速率高针对高性能企业
  - 可靠性高
FC
- 光纤接口

硬盘的性能指标

转速
- 7200RPM和5200RPM，高速10000RPM甚至15000RPM
  同一款硬盘其中一个比较便宜可能就是转速比较低
单碟容量
- 单碟容量越高传输速率越高
高速缓存
最大内部数据传输速率
- 从磁头到硬盘的速度
外部数据传输储率
寻道时间
- 磁头从停泊区移动到正确数据磁道上的时间
潜伏期
全程访问时间
- 将前面所有的时间加起来
连续无故障时间(MTBF)
- MTBF至少30,000小时以上(3年以上)
- 保修期低于1年强烈建议不要买

磁盘使用的基数

新型磁头技术
SMART技术
- 类似上一次突然断电则开机提示自检
SPS防震技术

硬盘工作模式

LBA(主流)

其他类型硬盘

移动硬盘
- 伪移动硬盘：有的商家利用笔记本硬盘+USB转换接口套壳卖出，价格为正常移动硬盘的一半，且防护性非常低，且接口可能会有多个
闪存
- 闪存卡
- 记忆棒与早期MP3内存在的闪存
U盘

常见硬盘介绍

外观都差不多

IBM(现为日立)-现为笔记本硬盘
迈拓
希捷 - 多为台式机机械硬盘
部数据 - 多为台式机机械硬盘
三星

硬盘的指标

转速
无故障连续时间MTBF

硬盘 - 数据恢复的基本知识

硬盘的结构

sector - 扇区

温盘结构特点如下：

磁头、盘片及运动机构密封在盘体内。
磁头在启动、停止时与盘片接触，在工作时因盘片高速旋转，带动磁头“悬浮”在盘片上面呈飞行状态(空气动力学原理)
磁头工作时与盘片不直接接触。
磁盘表面非常平整光滑，可以做镜面使用。

硬盘逻辑结构

磁头编号从0开始

盘片

盘片一般用铝合金做基片，也有用玻璃做基片的。每个盘片都有两个盘面(上、下)，都可以装上磁头存储数据，形成有效盘面。有效的盘面都有一个盘面号，从0开始；在硬盘系统中，盘面号又叫磁头号；
一般硬盘有2-3个盘片，所以磁头号为0-3或者0-5

磁道

编号从0开始

磁盘在格式化时被划分成许多同心圆，这些同心圆轨迹叫做磁道( track).磁道从外冋内从0开始顺序编号。一个盘面有300-1024个磁道，大容量的磁盘盘面磁道更多。
从外面开始一圈一圈往里面走

柱面

为何每个文件管理中每个盘有的时候不是整数，而是少了那么一点，因为磁盘是以柱面为单位，分区的时候是将柱面划分给指定的分区，假如在哪个分区内刚好有个柱面小于一般，则默认忽略不算，所以就会出现59.9之类的情况

所有盘面上的同一个磁道构成一个圆柱，称为柱面( cylinder).柱面上的磁头，从上而下从0开始编号。
数据的读写是按柱面进行的，即磁头首先在同个柱面内从0磁头开始读写操作，依次向下(1、2.…….)在同一个柱面的磁头上操作

扇区

编号从1开始

作为同心圆的磁道不是连续记录数据的，被划分成一段段的圆弧，这些圆弧叫做扇区(sector)，从1开始编号。
操作系统以扇区形式存储信息。每个扇区为512字节(byte)，分为两个部分：存储标识符和数据
交叉因子
- 若一个扇区，写着123456789扇区，此时磁头在扇区1的起始位置，当磁头读取扇区1的数据，由于磁头读取时需要时间导致磁头可能没有读取完数据1就已经”飞行“到了扇区2中间上了，于是就需要重新转一圈后才能到达2的起始位置，所以就出现交叉因子
- 交叉因子的扇区，就是交换了扇区编号，例如172839456，读取了1后再转多一点到达2的起始位置就不会出现上面那张情况

容量

1KB是2个扇区，1个扇区是0.5KB

硬盘的容量由盘面数(磁头数)、柱面数、扇区数决定，计算公式为：

划分 容量=盘面数*柱面数*扇区数*512字节

1KB=2^10B=1024Byte
1MB=2^10KB=2^20B=1048576Byte
1GB=2^10MB=2^20KB=2^30B=1073741824Byte

磁盘容量大小计算

实际上就是得到十六进制后换算成十进制后*512/1024/1024/1024

在winhex中使用读取硬盘的十六进制数来计算硬盘容量的大小

可以看到十六进制值为8020210007FEFFFF0008000000F07F07

前八位：起始的自举标志为80说明安装了操作系统，202100为CHS的起始地址，07为NTFS格式，FEFFFF为结束地址
后八位：winhex中的数据计算都需要反过来读
- 00080000分区的起始地址 -- 00 00 08 00
- 00F07F07为分区的大小 -- 07 7F 0F 00
  - 分区大小的计算，将十六进制为125767424*512/1024/1024/1024=59，结果却是为59GB

硬盘寻址

硬盘寻址模式

C/H/S(磁头+柱面数+扇区数)
LBA(扇区逻辑块地址)
C/H/S和LBA可以相互转换

硬盘缺陷介绍

缺陷扇区
- 扇区若永久损坏则永久上不可修复，软件上也只是逻辑上标记出指定扇区为坏扇区而已，实际上不可修复
磁道伺服缺陷
- 所有数据都是从0磁道开始读写，0磁道上放置的是系统引导信息，若0磁道损坏了则需要将其修复，将硬盘的起始位置挪一挪避开0磁道
- windows磁道工具只能从默认0磁道开始
磁头组件缺陷
- 更换电路板
系统信息错乱
- 重装系统
电子线路缺陷
综合新能缺陷

硬盘分区

分区目前有两种方式

MBR
- 传统的使用方式，最大支持硬盘容量有限，最大支持为2TB，最多有4个主要分区，可以吧一个主分区变成扩展分区，扩展分区拥有无数个逻辑分区
GPT

MBR

在MBR上分区和启动信息都是保存在一起的，如果这部分数据被覆盖或者破坏就麻烦了
硬盘需要经过低格、分区、高级格式化后才能使用
低格
- 作用：测试硬盘介质、为硬盘划分磁道、指定交叉因子，安排扇区、写入扇区i，完成扇区设置、对磁盘表面测试，标记损坏磁道和扇区
- 完成逻辑划分工作，检测每个逻辑扇区好坏，低格之后数据就全部丢失了
- 厂商出厂或者使用纯DAO系统的format功能
分区

便于硬盘的规划和文件的管理、有效的利用空间、提高系统效率、建立MBR
- 分区粒度--分区最小单位是柱面
- 每个盘都会记录其分区信息
- 将硬盘划分为一个个逻辑区域。每个分区有确定的起、止位置
- 分区的信息记录在一个特殊位置的扇区，称为硬盘主引导记录( Master boot recorder，MBR)或主引导扇区
- MBR位于0磁头，0磁道，1扇区
MBR区
- MBR，即主引导记录区，位于整个硬盘的0磁道0柱面1扇区。在总共512字节的主引导扇区中，MBR的引导程序占用其中的前446个字节(偏移0~偏移1BDH)，随后的64个字节(偏移旧EH一偏移|FDH为 DPT(Disk PartitionTable，硬盘分区表)，最后的两个字节“55AA"(偏移EH一偏移1FFH)是分区有效结束标志。由它们共同构成硬盘主引导记录，也称主引导扇区。
- 其中第1-446个字节是用来调用操作系统的机器码的
- 第447-510个字节是分区表的位置
- 第511-512个字节是主引导记录签名，也就是0x55和0xAA，通过这种结尾方式判断从哪个应道设备进行应道
- MBR一般占用63个扇区(实际只占用1个扇区)

MBR的主引导：分区表

主引导记录必须要知道我将控制权给谁，分区表的长度只有64个字节，里面分成4个项，每个项占16个字节，所以一个硬盘最多只能分四个以及的分区，这四个又叫主分区，在第13、14、15、16个Byte是主分区的扇区总数，这决定了主分区的容量，其中计算可以查看下面的磁盘查看，虽然可以使用扩展分区，但是还是推荐单碟机械硬盘超过2TB都推荐用GPT而不是MBR

MBR构成

一个扇区的硬盘主引导记录MBR由的4个部分组成
- 主引导程序
- 出错信息数据区
- 分区表
- 结束标志字
分区表含义
前八位自举标志，要么00要么80，后八位为本分区之前已用扇区数，最后四位为整个分区的大小
分区类型

磁盘查看

可以看到十六进制值为8020210007FEFFFF0008000000F07F07

前八位：起始的自举标志为80说明安装了操作系统，202100为CHS的起始地址，07为NTFS格式，FEFFFF为结束地址
后八位：winhex中的数据计算都需要反过来读
- 00080000分区的起始地址 -- 00 00 08 00
- 00F07F07为分区的大小 -- 07 7F 0F 00
  - 分区大小的计算，将十六进制为125767424*512/1024/1024/1024=59，结果却是为59GB
假如在MBR系统中有这一串

00 01 01 00 07 FE FF FF 3F 00 00 00 9A E5 3F 01
前八位：
00 - 起始的自举标志，80说明安装了操作系统，00表示没有
01 01 00 - CHS的其实位置
07 - NTFS格式
FE FF FF 3F - 结束地址
后八位：
3F 00 00 00 --- 00 00 00 3f
9A E5 3F 01 --- 01 3f e5 9a

虚拟分区技术

可以从winhex的十六进制中可以看出此表上只能分4个分区，多余4个分区的时候就需要采用虚拟分区表

主引导记录最多记录4个分区，多于4个分区的时候，采用虚拟分区表的办法
即主分区在记录分区时，将多余容量记录为扩展分区
像是链式那样，一环接一环，要读取E盘就要先读取C和D盘，每个盘内都有一个MBR分区表，这样可以扩展出更多的硬盘，但缺点是假如D盘的MBR分区表出了问题，EF盘都不能读取！

GPT

全局唯一标识分区表，GPT是一种基于计算机中可扩展固件接口(EFI)使用的磁盘分区架构，他与UEFI相辅相成，UEFI是用来替代BIOS的

GUID分区表

这是一个随机生成的字符串，在MBR上分区和启动信息都是保存在一起的，如果这部分数据被覆盖或者破坏就麻烦了，相对的GPT在整个磁盘上保存了多个这部分信息的副本，他可以恢复被破坏的这部分信息，GPT还未这些信息保存了循环冗余校验码(CRC)以保证其完整和正确——如果数据被破坏GPT会发觉并从磁盘上的其他地方进行修复

什么是 GUID？

全球唯一标识符 (GUID) 是一个字母数字标识符，用于指示产品的唯一性安装。在许多流行软件应用程序(例如 Web 浏览器和媒体播放器)中，都使用 GUID。

GUID 的格式为“xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx”，其中每个 x 是 0-9 或 a-f 范围内的一个十六进制的数字。例如：6F9619FF-8B86-D011-B42D-00C04FC964FF 即为有效的 GUID 值。

为什么要用GUID

世界上的任何两台计算机都不会生成重复的 GUID 值。GUID 主要用于在拥有多个节点、多台计算机的网络或系统中，分配必须具有唯一性的标识符。在 Windows 平台上，GUID 应用非常广泛：注册表、类及接口标识、数据库、甚至自动生成的机器名、目录名等。

GPT分区表结构

当头部丢失的时候可以在尾部读取镜像恢复

保护MBR
- 保护MBR与正常的MBR区别不大，主要是分区表上的不同，在保护MBR中只要一个表示为0xEE的分区，一次来表示这块硬盘使用GPT分区表
首要GPT头
首要GPT
磁盘数据区
备用GPT
备用GPT头

LBA0

LBA1

分区表头，最多可以创建128个分区

总结

在装电脑中最好使用UEFI+GPT格式，更安全，支持的容量更大

存储主要技术架构

DAS直连存储

DAS需要得到服务器的许可才能操作

存储设备直接加在到主机上

在一个DAS模式中何一个存储设备是被直接连接到服务器上。服务器是访问连接其白身存储资源的唯一单点。
服务器连接到一个图地网终(LAN)，个服务器就变成了在客户端工作站和存储资源之间的一个网关

直连存储架构

内置DAS
外置DAS

SCSI昂贵配置复杂不容易扩展，总线支持非常短
绝大多数直连存储环境使用小型计算机接口(SCSI)技术，

直接存储的优势与劣势

优势

相对廉价
使用熟练
广泛应用，使用简单

劣势

扩展性差
- 受硬件卡槽影响，普通卡槽只有4 个，服务器可能有8个
性能差
与LAN和应用互相影响
不能轻易和经济性的扩展
受连接距离限制
- 因为连接线比较短所以物理主机在哪直接存储设备就必须在哪
包括很多单点故障
- 当物理主机出了故障会导致存储设备带来直接影响
管理困难
- 不能批量操作，只能登陆到指定的每一台物理设备上配置

DAS的应用场景

DAS环境受制约

只有1台服务器可以直接连接一个指定的存储资源
存储资源访问必须与服务器中的其他应用共同竞争服务器的CPU、内存和ⅣO总线资源。这就降低了存储系统的性能
访问服务器的存储资源同样受可用的局域网(LAN)带宽的限制。局域网上的访问流量可以影响对存储访问的时间和速度，存储访问也可以影响使用局域网的其他应用的性能
每一台服务器可以支持数量非常有限的存储设备。当达到极限时，为了增加存储容量就需要添加额外的服务器。所以，DAS不能够很轻易和经济地扩展

DAS应用

RAID(磁盘阵列)
JBOD/SPAN(磁盘簇)

NAS

网络连接存储(NAS)概述

NAS(Network Attached Storage)

网络连接存储、或称附属存储

NAS设备基本上是指那些专门提供存储资源的专用服务器，他提供即插即用的存储扩展资源
NAS设诶可以直接介入LAN，客户端和服务器通过LAN访问NAS上的存储资源
NAS设备典型的使用一个独立的文件系统平台来存储数据

NAS架构

NAS特点

与系统无关
- 支持多种文件及数据共享方式
- 支持windows、linux、unix等操作系统
- 支持不同系统间对同一份数据的共享
  - 由于有自己的操作系统，所以可以存储为自己独立的格式，若win来则读取转换成win的格式，linux来则读取转换成linux的格式
简便的安装与管理
- 出厂预装OS及相关软件，并进行软硬件预设值
- 支持基于Web的GUI远程管理
强大的系统备份与恢复功能
优化的系统
方便的容量扩充
整体拥有成本TCO低
- 前期采购成本高，管理成本低

NAS的优势与劣势

优势

访问快
可扩展性能好
使用灵活
性能可靠
易于安装和管理
成本低、廉价

劣势

本身性能是瓶颈
- 由于NAS设备本来是专用的一台优化后的文件服务器，所以NAS服务器本身就是一个瓶颈
一个NAS设别性能也受可用网络(LAN)宽带的限制
- 文件传输与应用服务所使用的宽带容易受影响会出现资源争夺现象
不支持数据库
- 不适合块级数据应用的传输——不支持数据库

使用场景

局域网内文件级的共享访问，由于可以远程操作可以进行远程备份

NAS与DAS

NAS对文件和应用的访问快于DAS，没有资源竞争的情况，
多服务器可以访问同一个NAS设备，增加了应用的可扩展性
因为服务器和客户端都在LAN上访问，提高了灵活的、分布式的存储环境，提高了安全可靠
NAS比DAS更可靠
NAS即插即用
因为NAS设备使用一个独立平台文件系统，任何连接到网络的主机操作系统都可以访问到NAS存储资源

SAN 存储区域网

SAN(Storage Area Network)

存储区域网络、或称第二网络、后端网
将存储设备独立分开，变成了网络当中的一个节点，故障不会互相影响，管理简单
将存储网络独立分开成一个存储业务网络，不会影响使用者本身上网的网络
性能上优于DAS与NAS常用于高端环境，但是由于设备的增加所以价格会有所增加
广义SAN
- 支持多种协议的SAN
狭义SAN
- FC-SAN(用光纤作为连接SAN，所以不支持TCP/IP协议)

概述

存储区域网络是一个由专用网络连接起来的由服务器和独立存储设备组成的
不像NAS设备，存储区域网络存储设备不包含任何服务器功能，并且它们不是运行一个文件系统。
主机负责运行和管理文件系统。在这个环境中，任何一台服务器可以访问任何一个存储设备。
台服务器可以访问多个存储设备，并且多个服务器可以访问同一个存储设备
这允许服务器和存储设备各自独立地扩充。

光纤通道存储区域网架构

主机-交换设备-存储设备(其中交换介质都是用光纤连接起来)

光纤通道协议传输速度上快于SCSI

SAN的组成

server(服务器)
storage(存储设备)
- 磁盘阵列、磁带设备
SAN fabric(连接设备)
- 集线器、交换机、路由器、网关、HBA卡
software (管理软件)

SAN管理

初期的投入大

资产管理
容量管理
配置管理
性能管理
可用性管理

SAN的优势与劣势

优势

SAN提供高可扩展性
- 服务器、存储和带宽可以独立的被扩展
可以运行数据库

劣势

价格高(前期投入大)
异构环境下的互操作性
管理复杂

三种存储架构

可扩展性和可用性

SAN>NAS>DAS

成本比较

运维成本

SAN>DAS>NAS

一次性采购成本

SAN>DAS与NAS

三种技术架构的比较

SAN的主要应用

用于容灾保护

存储整合

客户端用网络与服务器相连，服务器通过光纤与交换机与存储设备(存储池)相连

提供了高性能

提供了数据安全的访问

高性能数据备份

LAN Free备份

服务器启到中转功能，对服务器有一定影响

减少备份(恢复窗口)
优化磁带应用(目前可能不适用)
降低服务器负担
消除对业务网络的影响

Server Less备份

服务器只起到发起功能，不在参与后续操作，可以专心对前端持续工作

实现不影响应用的备份
消除服务器负担

基于数据镜像的高级容灾数据保护

分布式存储

Fibre Channel(fc SAN)

FC SAN定义

一种完全光纤的传输

高速
数据整合
支持差错检测
支持远距离传输
支持远距离管理

传统的SAN是基于光纤完成的

光纤通道协议

三种拓扑架构

点对点
- 2
环型拓扑
- 126
星型连接(主流！)
- 一千六百万

点对点拓扑结构

点对点拓扑是指在一台服务器和一个存储设备之间专用连接
点对点以光纤通道协议代替SCSI的基础直连架构

仲裁环拓扑结构

光纤通道设备以环路形式连接
物理表现为Hub上的星型连接
公有/私有仲裁环路协议
(Public/Private Arbitrated Loop)

环形拓扑结构特点

共享带宽
每个Loop最多支持126个节点和1个 FL Port
使用LIP给每个设备指定FCAL地址
使用仲裁环路协议控制对介质的访问
私有 Private和公共 Public环
若节点出现单点故障则会出现速率骤降

星型环路交换

中心节点一旦出现问题整个网络坏掉，解决办法是接上冗余设备

交换Fabric拓扑

其中FC-SW最为常用
any to any的全带宽连接

特点

设备独享带宽
支持一千六百万地址空间
可以直接连接节点或仲裁环路/集线器
支持各种高级服务，用于发现和监控设备

HBA

为服务器或客户机内部总线(PCI和SBUS等)提供与光纤网络的接口
HBA软件驱动为操作系统提供所需存储信息
- 对I/O进行操作 I/O同时对正常请求进行控制
- 铜/光介质支持(可以是双接口卡)

光电转换器

小型串行到串行热交换模块，主要功能是提供相应介质接口(铜或光)

FC的优缺点

信息孤岛
- SAN一旦形成就是一个单纯的独立网络
SAN管理权的滥用
- 由于其是在SAN内部，所以SAN拥有最高权限可以对其进行任意操作
安全技术不易统一管理
- 有各种技术与各种兼容性问题
管理的复杂性

FC适应环境

高数据传输带宽要求
高数据访问io要求
高数据安全级别
远距离数据传输
块数据传输
数据备份
灾难恢复
数据共亨

IP SAN(ISCSI)

由于FC SAN成本比较高，所以后期改用以太网替换光纤连接虽然速度上没有FC SAN快但是降低了成本

ISCSI定义

可以理解ISCSI是IP与SCSI的融合

在 Interne协议(|P)统治着局域网和广域网。 Internet小型机系统接口(iSCSI)协议整合了存储和IP网络，使通过IP网络完成存储数据块的传输成为现实。它建立在两个已被广泛应用的技术之上-为存储而建立的SCS命令和为网络化而建立的|P协议。
iSCSI是一种端到端的协议，用于在IP网络中传输存I/O数据块。该协议被使用于服务器( initiator)、存储设备( target)和协议传输网关设备。
iSCS使用标准的以太网交换机和路由器，将数据从服务器转移到存储设备。它还使得IP和以太网基础设施可以被用于对SAN存储系统的扩展访问，跨过任意距离完成对SAN的扩展接入。

ISCSI协议

iSCS协议是将SCS的远程过程调用(rpc)映射到IP协议的过程。isCS|协议提供了独立于他所携带的SCSI CDB的层的概念。isCSI请求传递SCS命令，iSCSI响应处理SCSI响应和状态。

ISCSI设备

Taget目标器
- iSCSI的存储设备称为iSCSITarget
initiator启动器
- iSCSI允许使用一般 Ethernet NIC卡(网络卡，为了效率多半是GbE以上等级)与 Ethernet Switch(交换器)，若使用一般GbE卡，则还需要搭配软件才能让GbE卡收发isCSI协议，此软件称为iSCSI Initiator，事实上iSCS HBA的角色也等同于iSCSI Initiator.

ISCSI工作流程

在Target端和Initiator端将SCSI命令重新TCP/IP封包和解包后，即可在普通的以太网内传输

ISCSI特性

连通性
- 使用IP全局地址表，iSCSI设备增加了两个类型的表示：一个是iSCSI设备名，一个是iSCSI地址
数据传输
- 千兆、万兆以太网接口
- 千兆，1Gb单端口理论值1000Gb/s，即125MB/s
- 万兆，10GB，1.25GB/s

常用组件

交换设备
- 以太网交换机
- iscsi智能交换设备
- iscsi桥接器
ISCSI HBA卡
- iSCSI HBA卡就是采用内建SCSI指令及TOE引起的ASIC芯片的适配卡

IP SAN拓扑结构

ISCSI优点

建置成本低廉
管理门槛及维护成本更
节省存储资源、做好集中管理
没有距离的限制
传输速度快
系统兼容性好
人才较多*

使用领域

数据传输连续性
远距离数据传输
块数据传输
数据备份
灾难恢复
多主机数据访问

SAN的广域网技术

主要应用技术

FCIP、iFCP、iSCSI
DWDM、SONET、IP

DAS、NAS、SAN与ISCSI的性能特点比较

其他补充

FCIP

由于FCSAN容易出现信息孤岛所以出现了将光纤通过IP连接起来

在 FC SAN孤岛之间依赖基于IP的网络服务提供局域网、城域网和广域网的连接
依赖于TCP的拥塞控制和网络管理
数据纠错和丢失恢复依赖于TcP和FC双重机制
FciP视所有的FC帧于数据报等同

iFCP

一部分用FC SAN 一部分用IP SAN

网关到网关的协议，用TCP/P交换和路由设备作为 FC Fabric设备的补充或替代，来实现 FC SAN
将已有的FC存储产品连接到IP网络的协议

iSCSI

运行在TCP层上的SCSI传输协议
在IP网络上封装SCSI命令的新机制
在新一代内置支持TCP/IP的存储端节点设计的协议

FCIP、iFCP、iSCSI拓扑区别

广域网技术

DWDM

虚拟化存储

存储虚拟化的目的

抽象
隐藏
隔离
提高设备使用效率
统一数据管理功能
设备构件化
降低管理难度提高可扩展性
数据库跨设备流动

用虚拟化简化IT架构

融合：技术基础(更可靠、更可控、更灵活、更易扩展、更低成本)
开放：个性化基础(SOA的标准中间件架构和应用开发接口)
面向应用：以应用为先导，资源动态分配、统一管理

磁盘虚拟化

磁盘扇区的物理地址一般用CHS(柱面号-磁头号-扇区号)表示
磁盘虚拟化就是将扇区地址用LBA(逻辑块地址)表示，屏蔽底层物理磁盘的概念
磁盘虚拟由磁盘自身固件完成
磁盘虚拟化的结果是使磁盘的使用者无须了解磁盘的内部硬件细节，通过块地址就可以访问磁盘

块虚拟化

块虚拟化是指对多块硬盘建立RAID，划分逻辑卷(LUN).
每个逻辑卷对于使用者都完全等同于一块物理硬盘。物理上来说，这个逻辑卷的所有数据块，都是通过RAD处理，分布在不同的物理硬盘上。
块虚拟化的结果是使存储的使用者无须关心RAD实现的具体过程，只要象读写普通硬盘一样读写这个逻辑卷，就能获得RAID对数据的保护功能。

NAS虚拟化

NAS的虚拟化不同大多在于系统

特点：

支持异构主机
成熟的网络拓扑结构
高度集成的存储子系统
设备简单化

基于主机的存储虚拟化

通常在中高端存储设备

主要用途：使服务器的存储空间可以跨越多个异构的磁盘阵列，常用于在不同磁盘阵列之间做数据镜像保护。
实现方式：一般由操作系统下的逻辑卷管理软件完成(安装客户端软件)，不同操作系
统的逻辑卷管理软件也不相同。

优点

支持异构的存储系统。

缺点

占用主机资源，降低应用性能存在操作系统和应用的兼容性问题。
导致主机升级、维护和扩展非常复杂，而且容易造成系统不稳定性。
需要复杂的数据迁移过程，影响业务连续性

基于网络的存储虚拟化

主要用途：异构存储系统整合和统一数据管理。
实现方式：通过在存储域网(SAN)中添加虚拟化引擎实现。

优点：

与主机无关，不占用主机资源。
能够支持异构主机、异构存储设备。
使不同存储设备的数据管理功能统
构建统一管理平台，可扩展性好。

缺点：

部分厂商数据管理功能弱，难以达到虚拟化统一数据管理的目的。
部分厂商产品成熟度较低，仍然存在和不同存储和主机的兼容性问题。

存储虚拟化实现技术比较

“带内”与“带外”

根据存储虛拟化实现的机制，存储虛拟化可分为“带内”和“带外”两种基本类型。
带内虛拟技术是在数据读写的过程中，在主机到存储设备的路径上实现存储虚拟化；
而带外虚拟技术，是在数据读写之前，就已经做好了虛拟工作，而且实现虛拟的部分并不在主机到存储设备的访问路径上。
所以带内虛拟技术可以基于主机、设备和网络实现而带外虚拟技术则只能是基于存储网络实现。
带外实现难度比带内难
带内是逻辑化存储设备，但是拥有瓶颈，带内几乎是一个数据中转器，就如同火车只有一个头带
带外在数据处理过程中不会产生瓶颈，在异构存储系统之间需要大规模整合(极其复杂)，带内几乎是全部设备都是数据中转器，就如同火车每一节都是火车头在跑(均匀存储、拥有冗余、可靠性高、快速)

产品差异化

基于网络的带内虛拟化产品，一方面所有虛拟化数据都要通过该产品进行处理，因此它很容易成为路径中的一个瓶颈，另一方面如果用户需要高可用性那么需要额外増加设备数量。
带外虛拟化产品，在数据处理过程中不会产生瓶颈在异构存储糸统之间进行大规模整合，可以充分提高对存储资源的利用率

显示结果

带内架构会在服务器与物理存储设备或SAN之间部署一个控制器，所有的存储请求和数据流都要经过这个控制器处理。而滞外模式的产品会在网络层部署一个元数据控制器，将所有的存储请求重定向到真实的物理位置，但其本身并不负责数据处理。
与带内模式相比，带外模式的处理流程更加复杂，但却可以减少CPU的负载。带外的存储虚拟化还可以避免潜在的糸统崩溃风险，因为帶内模式下存储是经过重新映射的，一旦带内控制器失效，客户端主机与后端存储的连接也将丢失。
今天，大多数基于网络的存储虚拟化解决方案采用的都是带内模式(因为带内简单)，其中主要的原因可能是现在CPU的处理能力更强，与过去相比不在是祭构的瓶颈。而带内虛拟化架构普及的另一个原因则是带内方案实现起来更容易，可以更快的推向市场，问题也更少。

带内虚拟化

用途：

异构存储系统整合
统一数据管理，在业务运行同时完成复制、镜像、CDP等各种数据管理功能

优点

服务器、存储设备的兼容性好
虚拟化和数据管理功能由专用硬件实现，不占用主机资源
丰富的数据管理功能
配置简单，易于实施

缺点：

虚拟化设备发生故障，整个系统将中断

带外虚拟化

OpenStack：开源的云计算管理平台项目

用途：一般用于不同存储设备之间的数据复制

优点

虚拟化设备发生故障，整个系统将不会中断

缺点：

主机资源占用较大
大部分产品缺乏数据管理功能
主机和存储系统需要严格的兼容性认证
数据初始化同步复杂
配置复杂，实施难度高

计算云与存储云

存储云技术架构

存储云建设的考虑因素

高可用性
数据安全

存储虚拟化涉及的技术

虚拟化技术的整合方案

将上面所述技术再整合进行使用

虚拟化的必要性：降低管理成本、提高利用率
虚拟化的本质：将物理资源映射成虚拟资源统一管理
例子：云盘...

存储节能技术

MAID技术
数据分级存储
自动精简配置
重复数据删除技术

MAID技术

MAID技术在磁带库工作模式的基础上提出和发畏起来的。磁带庠的工作原理是正常状态下所有的磁带都放置在磁带庠的槽位中，需要某盘磁带肘才将它放在磁帶机中，然后进行数据读写。而在大部分肘间，大多数磁带是处在非工作状态的。MAID应用了同样的原理，只有需要肘才将一部分磁盘开机运转，而其他磁盘通常处于断电状态，就像磁带庠中的磁带一样。因此应用的MAID技术的磁盘存储也可以称之为磁盘庠。

MAID存储的功能

MAID节点功能工作方式分三个阶段，各个阶段时间间隔可以由用户自行定义
假设2分钟内没有读取资料肘，硬盘磁头就会自行停留到没有存取数据的地方，以节省磁头的功耗；过了10分钟后若仍没有读取，就会进入第二阶段，硬盘会降低转速至4000rpm；若过了15分钟后仍没有谈取资料，就会进入第三阶段，硬盘于是会停止运转，等到糸统呼叫肘再启动，但由于硬盘仍处于通电状态，因此还是在“准备状态”，再启动的肘间约为10~15秒。

MAID存储的特点

MAID存储糸统中的磁盘或碩盘RAID组可以在没有读写访问肘依据策略下电
下电磁盘自动依策略进行故障检查；
碳盘在下电以后，一旦有读写请求，磁盘自动上电，RAID组可重新
提供正常访问
降低能耗，电能节约可到达30%
减少环境和管理成本；
更长的磁盘使用寿命。

MAID存储的应用环境

MAID存储的工作原理是使长肘间无访问请求的硬盘处于 Power oFF状态，以达到绿色节能和延长硬盘寿命，因此MAD存储适用于访问频率低、数据即肘可得性要求低的大容量近线存储( Nearline Storage)设备和分级存储，尤其适用在以数据恢复为目的的数据备份和数据归档等应用上。并不适用于高性能实肘访问糸统，或访问肘间间隔较小的应用糸统。

基于VTL+MAID的数据备份解决方案

存储频率不高

基于CDN+MAID的视频网站存储解决方案

视频虽然数量大，但是一般分为点击率热门和非热门的数据

基于存储策略+MAID的视频监控存储解决方案

视频监控系统设计规范要求各监控点采集的视频图像必需在线保存10-15天，甚至是30天才能删除

数据分级存储

根据数据使用频率和价值高低分放到不同的存储介质中

其中数据迁移是一个较为重要的过程

数据迁移的规则，例如数据使用的频率与数据价值

分级存储优点

减少总体存储成本
性能优化：分级存储可使不同性价比的存储设备发挥最大的综合效益
改善数据可用性：分级存储把很少使用的历史数据迁移到辅助存储器中，或归档到离线存储池中，这样就无需反复保存，减少了存储的肘间，同肘提高了在线数据的可用性，使磁盘的可用空问维持在糸统要求的水平上。
数据迁移对应用透明：进行分级存储后，数据移动到另外的存储器

肘，应用程序不需要改变，使数据迁移对应用透明

自动精简配置

自动精简配置是一种存储管理的特性，核心原理是“欺骗”標作糸统，让操作糸统认为存储设备中有很大的存储空间，而实际上的物理存储空间则没有那么大
服务器识别存储设备的肘候，看到的并不是真实空间，而是由自动精简配置虛拟出来的卷。而且只有当服务器写入存储的肘候，真实的空间才会被分配。
当使用量超过阀值的时候则会自动增加容量，其提高了存储空间的利用效率、降低了成本投入

技术优势

可以自动扩畏已经分配的存储卷。
可以使用户使用接近100%的存储空间。
和远程镜像结合的肘候，可以节省镜像的空间和带宽
费用节省、空间利用率的提升
- 一个惊呆了的自动精简配置能大约减少20%的存储费用

重复数据删除

将数据集(在备份环境下，通常是备份教据流)划分为教据抉并将这些数据写入磁盘目标区城。为了识别传输教据流中的数据抉，重复数据删除引擎会为每个数据段创建一个数字签名(类似指紋)，并为给定存储库的签名创建一个索引。
该索引可从所存储数据段中重建，并提供了引用列表，以确定数据块是否已处于存储库中。
在复制操作过程中，该索引可用来确定哪些数据段要被存储，哪些教据段要被复制。当重复数据删除软件发现某一教据块以前已被处理过，则会插入指向该数据集元数据中原始数据块的指针，而不是再次存储该数据块。

重复数据删除方法

固定长度数据块切割(定长)
- 压缩效率低，简单，一块变化全部变化
可变长度数据段切割(非定长/可变定长)
- 压缩效率高，复杂，一块变化其余不影响

基于备份源基于目标端的重复数据删除

基于源端：性能依靠源端，会影响源端本身业务，网络过程中传输数据量降低，整个备份网络宽带也就降低了
基于目标端：目标端与源端隔离，源端可继续处理原有业务，降低了网络传输

从过程的角度分带内和带外

带内的方法比带外的效率高

不同条件下重复数据删除效率

越低越好

相同率最高的是 Windows文件，可以达到将近600：1的重复数据删除比率。比较低的应该是数据庠文件、LinuⅨX文件，可以达到75：1的重复数据删除比率。如果是NAS文件，比较好的情况下也可以实现135：1的比率

选择重复数据删除的原则

基本上认为大概正常的文件应用可以达到50%以上的重复数据删除。
对于定长的重复数据删除解决方案，切块越小，删除比率越高。
采用变长算法的重复数据删除解决方案，可以大大提高我们的重复数据删除率但也增加了糸统的消耗。
基于数据源的重复数据删除解决方案普遍比基于目标端的高，此外基于备份源的重复数据删除方案还能有效地降低备份网络的负担，但增加的是糸统的计算诮耗需要有相应的硬件解决方案。

数据备份

拷贝不等于备份
磁盘阵列不等于备份
集群(Cluster)不等于备份
备份的特点
- 备份可保留档案的历史记录
- 备份可保存目录服务记录及重要的系统信息
能够恢复的备份才叫备份

备份窗口

一个工作周期内留给备份系统进行备份的时间长度，如果备份窗口过小，则要努力提高备份速度

备份窗口/备份时间

备份时间
- 数据从开始备份到完全结束所经历的时间
数据恢复时间
- 即在出现灾难的时候，我们能够多快地恢复全部数据，重新开始
  正常的业务。

缩短备份时间

对外服务的时长是不可能压缩的，所以一般是采用提高备份速度

增量备份
日志备份
使用快速备份设备
提高网络宽带
使用特殊备份功能

缩短恢复时间的方法

缩短恢复时间与缩短备份时间的备份策略是冲突的(不用花钱)，硬件设备不冲突(要花钱)

使用全备份
不使用日志备份
使用快速备份设备
提高网络宽带

备份的类型

从备份数据的内容上区分：

完全备份
对备份对象进行一次完全备份
增量备份
- 每次备份的数据只是相对于上一次备份后新增加的和修改过的数据
差分备份
- 每次备份的数据是相对于上一次全备份之后增加的和修改过的数据

若要退回到星期五的备份状态：

全备份只需要一个备份数据
差异备份需要星期天的全备份和星期五的备份两个备份数据
增量备份需要星期天的全备份与星期一至五的增量备份，共六个备份数据

备份比较

速度上来说：增量备份>差异备份>全备份
可靠性来说：全备份>差异备份>增量备份
恢复时间来说：全备份>差异备份>增量备份

备份的方式

从使用的角度来看：
- 手工备份一功能最强、成本最高、最易出错
- 自动备份一使用方便、成功率高、降低成本
从应用的角度来看：
- 离线备份一业务需要停顿
- 在线备份一业务不停顿

本地备份

什么是本地备份？
- 本地备份也叫手工备份，是每台服务器有自己的本地备份设备，这是最简单的备份方案。由于备份设备连接到每台服务器上，所了硬件投资，还增加了管理的费用。.这种备份方案不仅增加以每台服务器不得不单独管理备份进程
本地备份的问题
- 手动，用户每次都要自己配置备份任务
- 无规律，没有策略
- 缺乏对备份数据的管理

网络备份

网络备份？
- 网络备份也叫做LAN备份，是一种流行的备份解决方案。通常，带有备份设备的备份服务器被放置在网络中。备份服务器负责整个系统的备份，它管理整个网络的备份策略、备份媒体和备份目标。所有的备份数据必须通过本地局域网进行传输
网络备份的优点
- 实现了大容量自动化、集中式备份
- 备份过程有策略管理，无需管理员介入
- 网络内所有需要备份的服务器可共享一台备份设备

Server less备份

什么叫 Server less备份？
- Server less备份是备份技术中最近的技术，它可以在 LAN Free备份的基础上节省有价值的服务器资源(CPU、内存等).一些Server less备份设备放在服务器和存储子系统之间，这些设备负责备份数据的仝部责任，它从存储阵列向磁带设备直接发送数据。
Server less备份的优点
- 实现不影响应用的备份
- 极大的减少服务器负担

使用备份软件

可以实现无人值守的计划自动备份
备份实现灵活，易于伸缩扩展
可以对媒体介质资源进行集中管理
可以对所有客户的备份任务进行集中管理
可以实现对异构平台的备份
对许多应用(数据库等)强大的支持功能
可以进行LAN-Free、 Server less等高级备份方式
完备的日志系统可以使管理员根据不同需求进行监控和查询

成功部署备份系统需要考虑的问题

您准备花多少时间恢复系统？
每次备份您最长给我多少时间？
备份的数据量有多大？
备份数据的类型是什么？
恢复时您能让我丢多少数据？
希望各种数据保留多长时间？
系统环境？主机/存储/带宽/应用
打算花多少钱？

影响备份系统的因素

目标数据
目标数据的容量
备份时间
恢复时间
备份类型
设备类型
备份计划
- 全备份、差异备份、增量备份
备份系统的结构的类型
在线备份

网络备份架构的组成

硬件组成
- 备份服务器(Backup Server)：负责管理整个系统的备份过程
- 备份客户端(Backup Client)：需要备份的应用服务器(Application Server)
- 备份设备：可以是磁盘阵列(Disk Array)、磁带库(Tape Library)或虚拟磁带库(VTL)
软件组成
- 服务器端备份软件：安裝在备份服务器中，负责控制、监控、制定所有的备份任务。
- 客户端备份软件：安装在需要备份的应用服务器中，负责与备份服务器通讯，并将备份数据送出。
- 数据库代理软件：安装在需要备份的数据库服务器中，负责数据备份的一致性与完整性。
- 带库驱动模块：安装在备份服务器中，允许备份数据写入备份设备中
备份网络
- 般为百兆或千兆以太网，备份服务器、备份客户端都需连接到备份网络，备份数据流及控制命令流都在该网络上传输

备份及恢复流程

备份流程
- 在备份服务器中设置备份任务及策略
- 备份服务器定时启动备份任务，通过以太网发送控制命令通知备份客户端开始备份。
- 备份客户端接收备份命令，启动数据库代理软件保证数据库的一致性，并开始发送备份数据通过以太网传输到备份服务器端
- 备份服务器接收备份数据，并将备份数据写入备份设备中。
恢复流程
- 业务系统数据丢失，需要恢复数据的客户端停止业务应用。
- 在备份服务器端启动恢复任务，管理员手工选择需要恢复的备份数据版本
- 备份服务器在自身数据库中寻找需要恢复的数据版本，并在备份设备中定位查找
- 备份服务器通过以太网将数据传输给丢失数据的客户端，客户端接收待恢复的备份数据

高级备份恢复技术

LAN Free备份流程

备份流程
- 备份客户端需安装备份媒体介质服务器端软件
- 在备份服务器中设置备份任务及策略。
- 备份服务器定时启动备份任务，通过以太网发送控制命令通知备份客户端开始备份。
- 备份客户端接收备份命令，启动数据库代理软件保证数据库的致性，并
- 开始发送备份数据通过SAN网络直接写入到连接在自身的备份设备中。
  备份服务器接收客户端写入成功的信息，备份任务完成。

Server Less备份流程

备份流程
- 需要SAN交换机或备份设备支持此功能。
- 在备份服务器中设置备份任务及策略。
- 备份服务器定时启动备份任务，通过以太网发送控制命令通知备份客户端开始备份。
- 备份客户端接收备份命令，并传达备份命令给SAN交换机或备份设备开始备份，备份数据不通过备份客户端直接从磁盘阵列写入到连接在SAN网络的备份设备中。
- 备份客户端得到完成信息，并将该信息通过以太网传送给备份服务器，备份任务完成

数据恢复应注意的问题

影响恢复时间的因素
- 系统重构的时间
- 是否具有快速恢复的功能
- 需要恢复的数据的大小
- 备份的类型
- 备份的介质
- 数据库恢复
  - 数据恢复
  - 日志恢复

数据库恢复分类

数据库完全恢复
数据库部分恢复
- 恢复数据文件
- 恢复表空间
- 时间点恢复
综合性恢复
- 表空间的时间点恢复

备份/恢复系统的规划

备份系统的规划
- 设计适合的备份系统结构
  - 对应用物理的影响
  - 考虑备份窗口是否与实际备份时间匹配
  - 备份介质容量
- 定制合理的备份策略
  - 保证备份的数据能够充分满足各种情况下数据恢复的需求
  - 使可恢复数据尽量距灾难发生点间隔最小
  - 能够充分满足数据保存时间的要求
- 估计可容忍的故障恢复时间
- 估计实际数据恢复所需要的时间
- 定制恢复计划
- 具有恢复能力的专门恢复人员
  - 有关备份的一切相关资料
    - 备份系统的结构图
    - 备份的执行情况
    - 备份数据与备份介质的详细关系

备份

需要根据保留的时间与价值分开存放
文件的复制与备份
window与linux系统的备份
备份软件与备份系统的备份
备份计划
- 周期性备份
  - 每日/周/月
  - 每次开关机
备份报告
- 备份报告的管理
  - 备份报告应有专人定时编写
  - 备份报告应存放在安全位置
    - 不会因为灾难的原因而丢失
    - 可以让数据恢复人员在最短的时间内取得报告
恢复指标
- 恢复时间
- 恢复点
  - 允许最大的数据损失量

数据容灾

灾难恢复是指发生灾难性事故的时候，利用系统恢复、数据备份等措施，及时对原系统进行恢复，以保证数据的安全性以及业务

与备份的区别
- 灾难恢复包括系统恢复、数据恢复和应用恢复全过程
- 灾难恢复目标之一是保证业务的连续性
- 系统备份与数据备份不同，他需要备份系统中安装的应用程序、数据库系统、用户设置、系统参数等。不是单纯的数据复制
- 容灾要求有异地数据备份，甚至系统应用的异地备份

容灾与备份的关系

区别

从定义上看，备份是指用户为应用系统产生的重要数据(或者原有的重要数据信息)制作一份或者多份拷贝，以增强数据的安全性。因此，备份与容灾所关注的对象有所不同，备份关系数据的安全，容灾关心业务应用的安全，我们可以把备份称作是“数据保护”，而容灾称作“业务应用保护”.

联系

备份与容灾是存储领域两个极其重要的部分，二者有着紧密的联系
首先，在备份与容灾中都有数据保护工作。其次，备份是存储领域的一个基础，在一个完整的容灾方案中必然包括备份的部分；
同时备份还是容灾方案的有效补充，因为容灾方案中的数据始终在线，因此存储有完全被破坏的可能，而备份提供了额外的一条防线，即使在线数据丢失也可以从备份数据中恢复。

容灾指标

以恢复点为目标(RPO -- Recovery Point Object)
- 数据的完整性(无数据丢失)
- 数据的一致性(数据正确却可用)
以恢复时间为目标(RTO -- Recovery Time Object)
以网络恢复为目标(NRO -- Network Recovery Object)
以服务支持能力为目标(SDO -- Serviceability Degrade Object)
- 性能
- 地域/支持的客户总数
- 功能的限制

灾难恢复与容灾规划

灾难恢复等级

支持灾难恢复各个等级所需的资源分为7个要素

数据备份系统
备用数据处理系统
备用网络系统
备用基础设施
技术支持能力
运行维护管理能力
灾难恢预案

共划分6个等级

等级	详细
第1级	基本支持
第2级	备用场地支持
第3级	电子传输和部分设备支持
第4级	电子传输及完整设备支持
第5级	实时数据传输及完整设备支持
第6级	数据零丢失和远程集群支持

容灾的7个层次

备份/恢复的范围
恢复计划的状态
在应用中心与备份中心之间的距离
应用中心与备份中心之间是如何相互连接的
数据怎样在两个中心之间传送的
有多少数据被丢失
怎样保证更新的数据在备份中心被更新
备份中心可以开始备份工作的能力

0层

无异地备份数据(No off——site Data)

1层

有数据备份，无备用系统(Data Backup with No Hot Site)

2层

有数据备份，有备用系统(Data Backup with Hot Site)

3层

电子链接(Electronic Baulting)

4层

使用快照技术拷贝数据(Point-in-time Copies)

5层

交易的完整性(Transaction Integrity)

6层

0数据丢失(Zero Data Loss)，自动系统故障切换

容灾恢复与容灾规划

对于倚仗厅系统的企业来说，从确保业务连续能力的角度出发，可以依据下列容灾规划步骤

灾难类型分析
业务冲击分析
当前业务环节及恢复能力分析
容灾策略制订
容灾方案设计
业务连续性流程设计
业务连续性流程及容灾方案管理和测试

容灾的IT实现

除了详尽的容灾计划，实际上还需要合理的系统架构来确保企业的容灾计划得以实现
对于IT系统而言，在技术层面上，容灾需要考虑：
- 数据版本保护 - 建立容灾的多版本保护底线(Bottom Line)
- 实时数据保护 - 数据复制，近乎0的数据丢失，数据一致性
- 应用系统恢复 - 恢复时间(包括数据库恢复)、应用版本的一致性(PTF)等
- 网络系统恢复 - 数据访问点变化、建立新网络路径、动态路由(收敛时间/稳定性)
- 容灾切换决策 - 即使发现灾难(容灾系统管理)、容灾切换的损失和补救方法
- 容灾切换过程 - 变换管理

通常情况下IT系统相关的灾难备份方案设计都必须考虑的五大因素

灾难类型：需要考虑哪些灾难？怎样的灾难？会使业务中断多久？
恢复速度：灾难发生后需要多久来启动及运行系统？能否承受数天或数分钟的等待？
恢复程度：需要恢复每条记录和交易吗？可以使用上星期或昨天的数据吗？需要恢复一切吗？有不相关的文件吗？什么是合法隐含的要求？有少数的一组人输入交易吗？他们可以重新输入灾难期间丢失的交易吗？这些交易十分重要而不容许丢失吗？
可用的技术：必须结合考虑所选技术在本地区的适用性、实现条件以及在实施时是否受某些现有条件的制约？
方案总体成本：实现灾难备份需要多少投资？不实现灾难备份会损失多少钱？

容灾涉及的恢复技术

应用恢复
网络恢复
数据恢复

同城容灾和异地容灾

同城容灾
- 同城容灾是在相近区域建立两个数据中心：一个为生产中心，负责日常生产运行；一个为灾难备份中心。
- 同城容灾由于距离近，带宽大，经常采用同步镜像
- 可以防范火灾，建筑物倒塌等灾害；
异地容灾
- 生产中心与灾难备份中心至少相距100Km以上
- 经常采用同步镜像
- 可以防范地震、水灾和战争等
同城容灾和异地容灾各有所长，建议银行等特殊企业，可以考虑同时构建同城容灾和异地容灾。

固态硬盘

不像机械硬盘，一旦有一个位置损坏整个固态硬盘就损坏无法使用了

由主控芯片控制，为了保证不让某个地方损坏所以芯片的使用寿命次数需要保证平衡
SLC复写次数：10w次
MLC复写次数：1W次(只有SLC的十分之一)
TLC复写次数：500次

固态分类

基于DRAM的固态硬盘
- 采用DRAM作为存储介质，目前应用范围较窄
- 不能断电，需要永久通电，通常会有独立电源供电保证数据安全

固态接口类型

SSD固态硬盘主流接口类型分为：
- SATA

SSD性能优势

响应时间短
读写效率高

功耗优势

SSD功耗小于机械硬盘
两块SSD=250块机械硬盘的功耗

SSD的环境适应优势

SSD不含高速旋转的机械结构部件，可经得住严苛的环境考验
- SSD可承受加速度16.4G，机械硬盘一般为0.5G以下
- SSD抗冲击150G，机械硬盘一般为70G左右
SSD使用专用设备做过如下测试：
- 静压试验、跌落试验、随机振动试验、冲击试验、碰撞试验

固态硬盘优点

启动快
- 没有电机加速旋转的过程
快捷，读取延迟小
- 不用磁头，快速随机读取，读延迟极小
轻量
碎片不影响读取时间
- 相对固定的读取时间
写入速度快
- 基于DRAM的固态硬盘写入速度极快
无噪音
- 因为没有机械马达和风扇
发热量较低
- 低容量的基于闪存的固态硬盘在工作状态下能耗和发热量较低
不会发生机械故障
- 内部不存在任何机械活动部件
省电
- 工作环境可在，典型：5-55°，工业：-10°~70°工作环境
工作温度范围更大
体积小重量轻
抗震动

固态硬盘缺点

成本高
- 每单位容量价格是传统硬盘的5-10倍(基于闪存)
容量低
- 目前固态硬盘最大容量远低于传统硬盘
易受外界影响
写入寿命有限
数据难以恢复
- 数据损坏后难以恢复，一旦硬件上发生损坏，要想在碎成几片或被电流击穿的情况下恢复几乎不可能
电池航程较短
能耗较高

SSD各种指标

顺序读取/写入速度
4K性能
- 4K是大小，4096字节
SSD读写原则和预留空间
- 按页存储数据，写数据时需要先檫除整块区块才能更新写入
- 为了让用户随时都能覆盖数据，所以需要保存一些空白空间或者是预留空间
- 一般制造商会预留远高于最低7.73%的空间，高端的SSD会预留高达28%的空间(512GB实际只有400GB可用)

SSD存储颗粒

从成本上来说NAND闪存大概能占SSD硬盘物料成本的70%或更多
大部分来自山西、东芝、美光、西数、英特尔
四大阵营：三星、SK Hynix、东芝/西数、美光/英特尔

主控芯片

一般来说主控芯片的成本占据SSD硬盘10-15%
主控芯片是固态硬盘的大脑

早期主控产品

早期主流是：Intel、SandForce、Marvell
SandForce由于比较好一直被收购最终被希捷收购，目前由于频繁收购已经没落了
JMicron：性能不好功耗大，属于垃圾物品，但是廉价，所以撬动了大部分市场并受大部分山寨青睐

主控发展情况

目前可划分为美系、台系、陆系

主控品牌分系

美系主控品牌

美满电子
慧荣科技 SMI
Marvell 马牌，大众认知上也是顶级的主控品牌
SandForce 由于被多次收购开始衰落

台系主控品牌

JMicron 便宜功耗大，受山寨青睐所以推动了市场
目前风头最劲的是群联电子
点序科技也是台系不可忽视的一直中坚力量

大陆系主控品牌

江坡龙、忆芯科技、联芸科技...
国产主控还有一个特别的优势，那就是支持国内认证的安全加密

数据恢复工具使用

WinHex

对系统要求低、方便携带

PC3000

俄罗斯

效率员

硬盘数据组织

硬盘需要经过低格、分区、高级格式化后才能使用
- 低格
  - 作用：测试硬盘介质、为硬盘划分磁道、指定交叉因子，安排扇区、写入扇区id，完成扇区设置、对磁盘表面测试，标记损坏磁道和扇区
- 分区：便于硬盘的规划和文件的管理、有效的利用空间、提高系统效率、建立MBR
  - 分区粒度一一分区最小单位是柱面
分区
- 将硬盘划分为一个个逻辑区域。每个分区有确定的起、止位置
- 分区的信息记录在一个特殊位置的扇区，成为硬盘主引导记录( Master boot recorder,MBR或主引导扇区
- MBR位于0磁头，0磁道，1扇区

FAT文件系统

概念

MBR

FAT的第一扇区是MBR(占63扇区，第6个扇区用作备份)，结束标志是55AA、前64个字节是分区表，16个字节为一个分区，上图只有一个分区

第一个字节是自举标志，所有分区的第一字节要么是00或80
后面三个字节是CHS起始位置
后面的字节应该是07，表明是分区类型NTFS(虚拟机上可能不一样)
后面三个字节是CHS结束位置
后面八个字当前四个是分区其实位置，后四个是分区大小
文件分配表FAT是dos文件管理系統用来记录每个文件的在储位置的表格，它叫链的方式存放簇号
根目录下所有文件和子目录，在根目录的文件目录表中都有一个记录-“目录登记项”。每个目录登记项占32个字节

计算

在winhex中的值都需要反过来

# 例如
3F 00 00 00 -> 00 00 00 3F
9A E5 3F 01 -> 01 3F E5 9A

高位的0可以省略，十六进制的3f转换成十进制63(MBR大小占63个扇区，C盘是紧接着MBR的扇区)
将13FE59A转换成十进制20964762(表明C盘这个分区占了20964762个扇区)，再

高级格式化(FAT格式)

低格→分区后就会有MBR(63个扇区)，然后进行FAT32格式化(高级格式化)。在硬盘中建立DBR(32个扇区)，记录着分区的重要信息(如果被破坏，数据就丢失)；在此基础上建立FAT1(FAT2是备份，两个FAT一模一样)，DIR是根目录(资源管理器打开显示的磁盘),最后是数据区域。

在分区内，对扇区进行逻辑编号
在基本分区建立DOS引导记录DBR
在逻辑盘建立文件分配表FAT
建立文件目录表FDT及数据区
FAT表有2个
DBR区可参考项
- DBR( DOS Boot Record),操作系统引导记录区。通常位于硬盘0柱1面1扇区，是操作系统可以直接访问的第一个个扇区。它包括引导程厅和一个被称为BPB( BIOS Parameter Block)的本分区参数记录表
- 高级格式化将DOS引导记录写到该扇区。引导程序的主要任务是，当MBR将系统控制权交给它时，判断本分区根目录前两个文件是不是操作系统的引导文件。以DOS为例，即是O.SYS和 MSDOS.SYS。低版本的DOS要求这两个文件必须是前两个文件，即位于根目录的起始处，占用最初的两个目录项，高版本已没有这个限制。另外， Windows与DOS是一个家族，所以Windows也沿用这种方式，只是文件名不一样。

DBR结构

DBR是操作系统可以直接访问的第一个扇区，结束标志和MBR的一样，区别：

MBR是在硬盘的起始处，而DBR是在分区的起始处。
MBR有分区表，DBR没。
winhex打开C盘没有MBR,打开硬盘才有。

5部分，操作系统可以直接访问的第一个扇区是DBR，FAT的第0、1簇为保留簇，其中，首字节表示DBR
跳转指令
- 两个字节，将程序跳转到自举代码处，EB3C;EB58等(EB代表汇编语言的JMP)。由于本身占两个字节，所以实际位置是3E,5A。其后是空指令NOP(90)
厂商标志和Dos版本号
- 8个字节(03-0A)
BPB(BIOS Parameter Block)
- 从第12个字节开始，占用52(0B-3E,FAT12/16)或80(0B-5A,FAT32)个字节
Dos引导程序
- 448字节(3E-1FD)或420字节(5A-1FD):负责Dos系统文件装入
结束标志
- 55AA
5个部分共有512字节，正好是一个扇区，所以成为dos引导扇起或bot扇区；除了结束标志是固定不变的，其他4个部分随着dos版本不同而变化
DBR占用32个扇区(实际只占用第1和第6两个扇区，第1扇区起作用，第6扇区为第一扇区的备份)

用winhex打开磁盘首先看到的是DBR的跳转指令 EB 3C;EB 58
结束标记
如果跳转第六个扇区(备份扇区)也是一模一样的(如果第一个扇区被破坏，可以从这复制)
在winhex右边点击引导扇区(模板)可以将数据用列表的形式表现
跳转指令
只要是有数据，起码占8个扇区(即一个簇)。簇是文件系统中读写数据的最小的单位(硬盘的逻辑划分最小单位是扇区)(分区的划分最小单位是柱面)
虽然大小只有10个字节，但以簇的形式可以提高管理的效率，但利用率下降，所以占用空间虽不满，但别人也不能用。如果大小变大了，管理效率调高了但是占用空间就大了，如果小了占用空间就小了但管理效率就低了
此处F8说明访问的是硬盘

FAT32

可参考项1 可参考项2

以链的方式存放簇号，前一个记住后一个。0_11(F80F)为默认，从这之后是数据
FAT32 - 32位，4个字节记录一个簇，因为用四个字节记录一个簇(所以*4)，一个字节8bit，所以叫FAT32.
文件名
占8位
文件后缀名
- 占3位，早期文件后缀名只有三个字节的位置，所以都是3个为主(exe、txt、ini、 jpg、png...)，虽然现在扩展了4个
属性
- 占一位，
- 20表示文件，10表示目录
- 06代表系统文件，病毒常常会将自己修改成系统文件，若将其属性修改了也会自动刷成系统文件
存储的起始位置
- 高位取反+地位取反，高位正数 56，地位倒数56
- 00 05 00 0C(真正的其实位置)
文件大小
- 取反 00 00 0B FD ->转换十进制得到的数就是文件大小，单位位字节

2E - .(点号
20 -  (空格

一个目录项作为长文件名目录项使用时，其属性字节(0BH字节)值为0F
若文件名过长则使用分段存储，分段存的长度为562562562...的分段存储，存储的编码也改变了，为Unioncode
属性一共八位： 0000 0000
- 高四位
  - 0010 0000 = 20 当前的记录是一个文件
  - 0001 0000 = 10 当前的记录是一个目录
- 第四位
  - 0000 0001 = 01 只读文件
  - 0000 0010 = 02 隐藏文件
  - 0000 0100 = 04 系统文件
- 如果属性位为22，则记录为隐藏的文件

文件恢复

将文件delete，文件放到了回收站，则在资源管理器中，文件以E5开头，若文件以此开头则会默认略过他，此标记是作为废弃文件使用
文件删除其实只是将文件改为E5开头，并在回收站中产生一个文件链接的记录，如果是将磁盘格式化，也只是将文件记录和fat表给清除，但目录下的文件夹子目录记录还会在扇区中所以可以跳转至起始蔟，但是如果格式化的文件没有放入文件夹的话，那文件记录就会丢失

如果需要查找中文名的文件夹，假设为新的文件.TXT则需要先创建一个txt，在里面输入新的文件保存为unicode编码后在winhex打开，以unicode保存的文件开头为FFFE后八位为编码后的新的文件文件名--B065FA5E87652C67

恢复一个文件

这里以一张jpg为例子，文件名为abc.jpg，为了好观察，首先我们截一张图存放在一个空的盘，然后打开winhex选择指定的磁盘后打开根目录，找到abc.jpg这个文件名，找到之后这两行都是被这个文件占用了的，第二行从做左往右数第5、6位是文件的其实存储位，第二行倒数第56位是结束存储的位置，第二行最后四位是文件的大小

正数：00 00
倒数：08 00
文件存储簇：00 00 00 08
EC BB 00 00
文件大小00 00 B8 EC
- 转换十进制大小：48108
- 末尾的偏移位：5D(十进制数除以512=93转16进制)
移动到簇8后选择为起始，再偏移至5D sec后选择为结束，将所选的内容保存为文件导出则为abc.jpg 图片

winhex中分析FAT32文件

系统读取文件会首先查看0x0B位，这一位说明了此文件为长文件名文件还是短文件名文件，短目录项就是文件名长8位、后缀为3位的文件，更长的文件名需要长文件名，一般0F表示为长文件名

长文件名部分0009D020-0009D030
- 0x01中的41代表了0009D020-0009D030放置着unicode文件名，41的1字表示他是第一段，如果还有更长的则在个位数上叠加
- 0x0B中0F是长文件名的表示
- 0x0C的00是用作保留
- 0x0D的D2则是用于校验
- 其余部分用于存储unicode，其中的长文件名一直到00 00作为字符串结束标志，多余部分的用FF填充
- 为了检验其中的unicode码内容，我们用文本编辑器输入新建文本文档.txt保存为unicode的格式用winhex打开，可以看到从FFFE开始后面的十六进制数与从04行开始的65FA5E....一致，而文件的格式名740078007400则在0009D020的0x0d-0x09
短文件名部分0009D040-0009D050
- 0x00-0x07表示这其文件名
- 0x08-0x0A的54 58 54则代表文件后缀名txt文件
- 0x0B的20记录代表了这是一个文件
- 0x0C的00为保留所用
- 0x0D列为创建时间的10毫秒位
- 0x0E-0x0F列表示文件的创建时间，如果要对其计算则需要翻转，也就变成A6 E6，再对其进行换算
- 0x10-0x11表示文件的创建日期，也是需要对其进行翻转，变成50 AE
- 0x12-0x13表示文件的最后访问日期，计算的时候需要翻转为50 AE
- 0x14-0x15表示起始簇高字节，计算的时候需要翻转为00 00
- 0x16-0x17表示文件最后的修改时间，计算的时候需要翻转为A6 37
- 0x18-0x19表示文件最后的修改日期，计算的时候需要翻转为50 AE
- 0x1A-0x1B表示起始簇低字节，计算的时候需要翻转为00 03，将高位和低位加起来：00 00 00 03，将其转换成十进制也就表示这个文件存放在03簇
- 0x1C-0x1F表示文件的大小，计算的时候需要将18 00 00 00翻转为00 00 00 18，转换十进制为24个字节

查看存储的簇

首先我们从上面得到了此文件在03簇，在位置->跳转至扇区
可以看到其中存储的内容与E盘文本文件中的内容一致

恢复文件

上面你已经学会了查看簇与计算文件大小，接下来会用到的！

首先我们将桌面截图保存jpg图片文件到E盘中
然后将他删除，从winhex中打开E盘
0009D0A0中0x0B为0F所以这是一个长文件，0009D0C0的0x0B为02所以这部分是表示这是一个文件，其余我们可以不管这里只做恢复所以重要的是看0009D0D0这一行
1. 簇
  - 起始簇高字节：0x15-0x16 -> 00 00
  - 起始簇低字节：0x1A-0x1B -> 04 00
  - 汇总(高低)：00 00 04 00 分别翻转后得到-> 00 00 00 04
2. 文件大小
  - 0x1C-0x1F -> BA 55 00 00
  - 翻转后得到：00 00 55 BA
  - 转换成十进制后除以512=42(字节)再转换成十六进制数得：2A(偏移所用)
3. 这里得到了簇是用于定位被删除文件的起始位置，文件大小计算所得的2A是用于定位被删除文件的结束位置
  - 选择菜单栏的位置->跳转至扇区输入簇值为4，此时我们定位到了被删除文件的其实位置，右键选择选快其实位置
  - 然后选择菜单栏的位置->跳转偏移量，输入刚刚计算得到的十六进制数2A，将后面的单位改为Sectors，并选择从当前位置开始
  - 跳转后选择其前一次字节，右键并选择选快尾部
  - 此时我们就选择了一块区域，这块区域就是图片的内容，在蓝色的区域右键编辑-复制选快-至新文件，将其保存到任何地方都行，记得后缀别弄错了是jpg
  - 完成！

NTFS

参考

NTFS是windows想抢占服务器行业所做的新文件系统，参照了Unix和linux，一切都是文件不想FAT中有其他的东西
一个文件记录的大小是1KB=1024个字节，占用两个扇区
新特性
- 容错：NTFS可自动修复磁盘错误而不显示出错信息Windows在向NTFS分区写入文件时，在内存中保留一份文件拷贝，然后检査写入的文件与拷贝是否一致，如不一致， windows就把相应的扇区标为坏扇区，然后用内存拷贝重新向磁盘写文件。
- 安全：支持加密文件系统EFS，授权用户访问文件可以在本机和远程保护文件
- 文件压缩：支持文件压缩，单个文件或整个文件夹
- 磁盘配额：允许系统管理员给用户分配磁盘空间，用户只能访问自己的文件
在NTFS中，文件的所有信息，包括文件名所有者、时间、内容等，都是作为NTFS对象的属性来实现的；所以NTFS文件可包含多个数据流
NTFS文件有默认的数据流，没有名称。应用程序可以创建具有名称的数据流，并且通过名称来访问这些数据流：通过在文件名后加上“：”再加上数据流名称来完成。
例如： Myfile.txt: Stream1

NTFS的DBR的BPB参数表

NTFS分区的区域结构

在NTFS文件系统中，文件也是按簇分配的，一个簇总是扇区数的2的整数次方；磁盘上的任何事物都是文件，文件通过主文件表来确定存储位置
主文件表是一个与文件对应的数据库，由一系列文件记录组成。主文件表也有自身的记录文件
MFT仅供系统本身组织、构架文件系统使用，在NTFS中称为元数据( Metadata，是存储在卷上支持文件系统格式管理的数据，不能被应用程序访问，只能为系统服务)
最基本的前16个记录是操作系统使用的非常重要的元数据文件。这些元文件名字都以“$”开始，是隐藏文件(通过NFI.EXE可显示)

MFT

MFT中的文件记录大小是固定的，不管簇的大小是多少，均为1KB.(相当于 Linux中的一个 inode
文件记录在MFT文件记录中是物理上连续的，从0开始编号

NTFS元文件

文件记录长度可变，末尾以4个FFFF结束

文件记录头的结构

二进制	数值	表示
0000 0000	0	该记录为文件
0000 0001	1	正在使用的文件
0000 0010	2	该记录为目录
0000 0011	3	这种使用的目录

属性结构

整体结构可分为两个部分
- 属性头 - 常驻属性头、非常驻属性头
  - 常驻 10 30 50 80 90
    - 常驻属性头偏移位0x00-0x18，在winhex中为一行半，所以属性头如果没有超过两行则为常驻属性头
  - 非常驻 80 A0
    - 如果属性头长度超过两行则为为非常驻属性头
    - 如果此条记录为非常驻，则末尾会有一条深色的记录，记录着属性的运行地址
  - 80为文件数据属性
    - 可变属性头(特殊的)
    - 具体看浅色部分的行数
      - 未超过两行的常驻属性，深色的部分为存储的数据，将其复制至新文件即可恢复，如果是
      - 超过两行的非常驻属性，深色部分需要计算，计算后得到的即是存储的数据
  - 10 标准信息属性
  - 30 文件名属性头
    - 如果一个文件有两个30文件名属性，则表示这个文件为长文件名，第一个为长文件名，第二个为短文件名，由于历史原因短文件名是系统默认保留的
    - 如何区分短文件名和长文件名？看十六进制数中是否出现了7E 00 31代表这~ 1
  - 90 索引根属性
  - A0索引分配属性
- 属性内容
  - 程序运行，本质上是一个连续存储的空间，运行的时候本来使用的空间不足则会到存储空间中划分一块空间继续使用，不够则继续划分

非常驻文件分析与文件恢复

如果80属性中浅色部分超过两行，则表示这是一个非常驻属性

所有的文件或文件夹都从FILE开始，即46 49 4C 46 30
每个文件的第三行的C列都记录着是第几个文件记录(编号)，假如是1D那就是第29个文件夹记录
在ntfs中如果文件被删除，出了第二行的第六列会从01改为00，其他都不会变，0表示文件，0是偶数表示被删除的
在ntfs中硬盘格式化并没有将文件数据删除，但文件记录会被删除

起始的第一个字节的高位+低位是运行记录的大小：3+2 = 5
32 1F 01 F8 52 07 00 00
32:1F 01 F8 52 07
# 高位3 表示后三位是运行的起始簇号
3:F8 52 07 -- 07 52 F8 --479992 起始位置
# 低位2 表示前两位是运行的簇大小
2:1F 01 -- 01 1F - 287簇(cluster) * 8 = 2296 扇区(sector)
----------案例二
31 5D A2 63 04 00 01 00
31 5D A2 63 04 
3:A2 63 04 -- 04 63 A2 -- 287650
2:5D -- 5D -- 93 *8=744 -- 2E8
将起始位置簇为287650，也可以跳转至扇区/8=35956扇区选中，然后再偏移2E8个扇区后将文件复制保存到新文件即可

# 多运行地址的情况：31，3+1=4第五个数后面还是有值，所以继续相加
31 09 5A FE 13 31 03 87 01 FD 00 00 00 70 48 E1
FD后面都是废弃数据
31:09 5A FE 13 -- 
3:13 FE 5A - 1310298(相对位置，相对于硬盘的起始位置)
1:09
-----
31:03 87 01 FD -- 
3:FD 01 87 -16580999(相对位置，相对于上一个位置的起始位置，所以需要加起来) +1310298 = 17891297
1:03
# 需要将这两个文件数据拼起来才能变成一个完整的文件

常驻文件的恢复

常驻文件只需要找到文件所在的簇，常驻文件的80属性头部分(浅色)是不超过两行的，后面的深色部分都是数据，将其复制至新文件保存即可

文件夹分析与恢复

一开始创建目录的时候只有90属性，文件下的文件记录放置在90中，如果文件夹内的东西越来越多，90索引根属性放不下了，就会创建一个A0索引分配属性，将90的东西放到A0中
长文件名会有两个30，十六进制数7E 00 31代表的~ 1是短文件名的标志，$I30`是90和A0属性文件名特有的名字
如果文件夹内索引内容超过2个扇区，则会放到索引扇区，以INDX开头

新建一个文件夹

添加一个文件

如何查看b.txt所在位置？首先看文件的文件记录号：21 00，将其翻转则为00 21，注意这是十六进制数，要转换为十进制数得33*2=66再转十六进制数为42，然后从主文件记录开始向后跳转42个sectors跳转到记录着b.txt的文件记录区域，再找到高光区域的数字对其计算即可找到

添加第二个文件

添加一个长文件名

当文件夹下文件过多时

如果文件记录2两个扇区放不下了，就会将90属性值内的记录项移动到了A0属性值内

这里计算一次非常驻属性的A0，将其其实位置计算出来，然后跳转到A0的其实簇：39161簇

31 01 F9 98 00
3:00 98 F9 - 39161
1:01

RAID

概念

是独立冗余磁盘阵列的英文缩写，人们在开发RAID时主要是基于以下设想：即几块小容量的使盘的价格总和要低于一块大容量的硬盘。
虽然RAID在节约成本方面的作用不是很明显，但是RAID可以充分发挥多块硬盘的优势，实现远远超出一块单独硬盘的速度和吞吐量或提供远超过一块硬盘的容错能力

原理图

与单盘系统不同，单盘系统数据是写在单独的硬盘，RAID是同时读写，在读写的时候会将数据进行切片

常用的RAID级别与分类标准

RAID技术将多个单独的物理硬盘以不同的方式组合成一个逻辑硬盘，提高了硬盘的读写性能和数据安全性，根据不同的组合方式可以分为不同的RAID级别。

RAID的几种状态

若进入降级速度会骤降，如果进入这个状态则需要注意设备更换或修复，否则RAID失效很难进行数据恢复

RAID0

RAID 0是最早出现的RAID模式
读写时全部硬盘同时运作，由于没有冗余如果其中一块硬盘损坏，则全部数据损坏
若数据损坏需要将损坏的盘换上，支持热拔插的设备拔下则需要一分钟内更换
整个逻辑盘的数据被分散分布在多个物理盘上，并行读写。(没有冗余能力)
特点
- 利用率100%
- 读写效率高，理论上为单盘的N倍
- 无容错能力，安全性低于单盘
DAID需要注意的参数
- 盘序
  - 数据先写在哪那个块就是第一个块，如果要恢复数据就需要先找到数据的读写顺序
- 块大小
  - 一个D0叫块
  - D0和D1叫条块
- RAID信息

RAID1

数据读写同时分别写在两块硬盘中，如果其中一块硬盘损坏或数据损坏，可以直接从另一块硬盘中恢复
把一个磁盐的数据镜像到另一个硬盐上，通常在两块盘上实施
特点
- 利用率低：1/N
- 读写效率好，写效率一般
- 容错性好
RAID1需要注意参数
- RAUD信息

RAID3

需要三块硬盘，不能自动恢复数据若数据损坏需要将损坏的盘换上，支持热拔插的设备拔下则需要一分钟内更换
工作原理使用上了异或校验码，拿出其中一块硬盘做异或运算，因为0^0=0、0^1=1、1^0=1、1^1=0，若第一块硬盘坏了则通过异或校验可以反向得出损坏的那块硬盘的数据,但两块就不行了

RAID5 (应用最广泛)

需要三块硬盘以上，读写的时候将校验码分别存储在不同的硬盘中，比如写入D0和D1时会生成P0校验值再存储，若其中一块硬盘损坏会自动恢复不需要更换硬盘，但两块就不行了，RAID 5 (可以理解为是RAID 0和RAID 1的折衷方案
写入速度会稍微慢，因为需要生成校验快，读取则很快，因为不设计校验码
如果有三块500g的硬盘组成RAID5，则构成的空间是1T，因为其中一块(分别加起来)用作校验
RAID5是应用最广泛的，但是最难恢复数据的，因为不知道数据的读写顺序，整个逻辑盘的数据以条带方式被分散分布在多个物理盘上(3块以上)，每个条带中设置专门一个数据块存储该条带的异或校验。
特点
- 利用率：(N-1)/N
- 读效率稍高，写效率稍差
- 容错性：允许一块硬盘故障
需要注意的参数
- 盘序
- 块大小
- 校验方式
- RAID信息

RAID6

虽然安全性好允许两块硬盘损坏，但由于需要进行计算，性能不搞，使用人也不多

RAID6是带有两种校验的独立磁盘结构，采用两种奇偶校验方法，需要至少N+2(N>2)个磁盘来构成阵列，一般用在数据可靠性、可用性要求极高的应用场合
常用的RAID6技术有RAID6 P+Q和RAID6 DP
原理
- RAID6 P的工作原理，P作横向校验，Q作斜向校验
- RAID6 DP的工作原理，可以通过斜向校验得到其中一个数据，也可以通过横向校验得到其中一个数据