写在前面:
·学习环境介绍:
本课程教学环境为RHEL5.4,利用XEN虚拟化搭建的学习环境。
如下图,物理机上跑了两个虚拟机:node1和node2;
·翻译使用的教材为官方2010-03-24版最新教材。
第一章:数据管理、存储和集群技术介绍:
1.00 本章内容简介:
·如何定义企业级数据需求;
·介绍红帽存储模型;
·介绍通用的集群硬件;
·配置实验环境要求;
1.01 数据:
在这个信息爆炸的时代,数据可以说是企业的生命,企业愿意为了数据的安全性和完整性付出最大的努力。而本教材学习的集群和存储架构正是用来解决数据可用性和完整性的。
在企业应用中,数据常常被分为以下3钟:用户数据、系统数据、应用数据。用户数据的保护比系统数据更具有挑战性,系统数据丢失了并不会造成企业真正的损失,而用户数据的丢失或泄露则是致命的,比如银行业务。应用数据在企业中是最不能轻视的,因为大量著名的黑客攻击都是通过系统上应用的漏洞来开展的。
1.02 数据存储的思考:
了解了数据的重要性,那么我们就要思考如何才能有效地保证数据的安全。
这一刻大家想到了存储。企业中的关键业务数据必须保存在具有很好的冗余校验保护的存储阵列中。如果你把数据直接放在服务器磁盘中,以服务器的高负荷工作下,一旦磁盘物理上出现问题就彻底杯具了。大家都知道,这种机械特性的温氏盘总是存在硬件上的风险。
现在很多关键的数据都采用了异地备份的方式来保证数据安全,如淘宝就是采用了同城光纤直连的备份。
1.03 数据可用性:
上面谈到了关于数据存储的思考,而数据可用性对于业务来说更为重要。
以淘宝为例,大家搜索商品时都希望能尽快地呈现出来,不希望半天都还在加载。但是整个的加载过程包括了服务器的处理,再到后端的存储上取数据,而这方面的数据可用性就显得尤为重要了。
我们要注意数据的生命周期、数据的访问方法和频率,还要注意应用程序的“data starved”数据饥饿和单点故障问题(SPOF)。以WEB服务器为例,对于网站程序以及生成的静态文件全都是只读操作的,真是进行读写数据是通过数据库在后端存储上操作的。那么,企业应用中常常把服务器上的磁盘做成RAID1以放置网站程序,大家知道RAID1的读速度非常优秀;而后端的存储上可能就是用RAID1+0,既要保证读写速度,又实现数据的冗余保护。
1.04 规划设计:
在企业中,没有哪个企业越发展数据越少的,从来都是数据越来越多,那么就涉及到后期的扩容问题了。但是做事未雨绸缪方为上策,最好是在架构设计之初就想到了后期如何扩容,规划数据的增长。
在设计架构时就要有意识地减少复杂度,增加灵活性,同时要兼顾考虑安全问题。
1.05 什么是集群:
前面铺垫了那么多,终于可以来介绍集群了。
书上第一句的解释是“一群计算机一起工作来完成一个任务”,这就是集群。我这里主要谈谈红帽的RHCS集群套件,它主要包括3个不同的集群,分别是HPC高性能运算集群、HA高可用集群、LVS负载均衡集群。跟集群相关联的有GFS全局文件系统,CLVM集群级的逻辑卷管理等。
HPC集群:就是指一群计算机分担计算任务,以提高数据处理效率,但是只能针对并行运算才能起作用,如果让HPC进行串行数据处理,那么就是徒费精力。
HA集群:高可用就是故障转移,即主服务器发生故障时,集群将感知故障,从而自动将服务切换到另一台冗余服务器上,也就是双机热备。
LVS集群:LVS是基于IP的负载均衡技术,由负载调度器和服务访问节点组成,通过LVS的负载调度功能,可以将客户端请求平均的分配到各个服务节点,同时,还可以定义多种负载分配策略。
1.06 集群的基本拓扑:
上图为教材中插图,集群拓扑结构。
1.07 红帽RHEL存储模型:
对于一个独立主机来说,红帽的存储模型包括上图的5部分:物理磁盘卷、块设备、文件系统、VFS虚拟文件系统以及应用程序的数据结构。所有文件的访问都被以上模型进行管理。
虚拟文件系统(Virtual File System)是为内核提供的针对文件系统使用的接口,它为这些文件系统操作的System Call提供了一个统一的机制,以使得对于不同的文件系统都能有很好的兼容使用。
1.08 磁盘卷的管理:
一个磁盘卷是由描述数据物理限制的Block块组成的集合体,磁盘驱动的性能、连通性和可依赖性全都会影响这个数据容器的可用性。通常,磁盘卷可以通过RAID技术来提高数据的可用性。
如果一个RAID设备的控制器支持多个LUN(逻辑单元号),一个大块的存储就可以切割成多个小的设备,每一个设备都分配了唯一的SCSI LUN。
UUID(通用唯一识别码)是合理地使用保证唯一的128位数值在分布式系统中识别唯一的对象。查看UUID可以使用命令:
# blkid
1.09 访问存储设备:
在访问存储设备的方式上总体分为两种,一种是DAS直联附加存储,另一种是共享存储。DAS直联附加存储也有两类,一类是采用总线架构,服务器与存储物理上直连,另一类是采用了中继设备,不是直接访问物理设备。共享存储则是发布到某个网络中,该网络内部的主机都可以进行访问,最经典的架构是SAN和NAS。
1.10 SAN和NAS存储架构:
下面就来介绍一下SAN和NAS存储架构。
NAS(Network Attached Storage)网络附加存储:NAS是通过网络来定义成员的,即该网络内的主机都是NAS的成员,通过ip域来定义存储域的大小。NAS是一种将分布、独立的数据整合为大型、集中化管理的数据中心,以便于对不同主机和应用服务器进行访问的技术。按字面简单说就是连接在网络上, 具备资料存储功能的装置,因此也称为“网络存储器”。它是一种专用数据存储服务器。
SAN(Storage Area Network)存储区域网络:SAN是通过成员来定义网络的,即指连接成员组成一个存储的区域网络。它的最大特性是将网络和设备的通讯协议与传输物理介质隔离开.这样多种协议可在同一个物理连接上同时传送,高性能存储体和宽带网络使用单I/O接口使得系统的成本和复杂程度大大降低。
【RHCA翻译计划】EX436第一章:集群存储概论2
http://yeshaochen.blog.51cto.com/3155801/658678