术语解释 -ceph、Spice、VNC、Quorum机制

1 存储相关概念

1.1 ceph概念

ceph是基于C++语言开发的统一的分布式存储系统 。具体而言,“统一的”意味着Ceph可以一套存储系统同时提供对象存储、块存储和文件系统存储三种功能,以便在满足不同应用需求的前提下简化部署和 运维。而“分布式的”在Ceph系统中则意味着真正的无中心结构和没有理论上限的系统规模可扩展性。

1.1.1 为什么关注它

首先,Ceph本身确实具有较为突出的优势。

Ceph值得一提的优势颇多,包括统一存储能力、可扩展性、可靠性、性能、自动化的维护等等。本质上,Ceph的这些优势均来源于其先进的核心设计 思想,笔者将其概括为八个字——“无需查表,算算就好”。基于这种设计思想,Ceph充分发挥存储设备自身的计算能力,同时消除了对系统单一中心节点的依 赖,从而实现了真正的无中心结构。基于这一设计思想和结构,Ceph一方面实现了高度的可靠性和可扩展性,另一方面保证了客户端访问的相对低延迟和高聚合 带宽。通过后续内容的介绍,读者可以看到,Ceph几乎所有优秀特性的实现,都与这个核心设计思想有关。

其次,Ceph目前在OpenStack社区中备受重视。

OpenStack是目前最为流行的开源云操作系统。Ceph之所以在近一两年间热度骤升,其最为有力的推动因素就是 OpenStack社区的实际需求。目前而言,Ceph已经成为OpenStack社区中呼声最高的开源存储方案之一,其实际应用主要涉及块存储和对象存 储,并且开始向文件系统领域扩展。这一部分的相关情况,在后续文章中也将进行介绍。

1.2 LVM

LVM:存储的格式,块存储。

1.3 FS

FS: 文件系统,在LVM的创建的磁盘的基础上,安装FS,形成了文件存储。

2 虚机的访问方式

2.1 VNC

VNC (Virtual Network Console)是虚拟网络控制台的缩写。它 是一款优秀的远程控制工具软件,由著名的 AT&T 的欧洲研究实验室开发的。VNC 是在基于 UNIX 和 Linux 操作系统的免费的开源软件,远程控制能力强大,高效实用,其性能可以和 Windows 和 MAC 中的任何远程控制软件媲美。 在 Linux 中,VNC 包括以下四个命令:vncserver,vncviewer,vncpasswd,和 vncconnect。大多数情况下用户只需要其中的两个命令:vncserver 和 vncviewer。

2.2 SPICE

SPICE,即Simple Protocol for Independent Computing Environment(独立计算环境简单协议)是红帽企业虚拟化桌面版的主要技术组件之一,具有自适应能力的远程提交协议,能够提供与物理桌面完全相同的最终用户体验。借助支持SPICE协议的客户端(如remote-viewer)或者通过浏览器,用户可以访问自己的虚拟桌面。

2.2.1 特点:

Spice虚拟桌面传输协议,最初是由Qumranet开发,后来被RedHat收购并开源。经过几年的社区开发,Spice协议已经能在实际应用中一展拳脚,和商业协议ICA 、PCoIP等相抗衡,与上述商业化的远程桌面协议相比,Spice协议具有如下优点:
(1)开源:易于扩展和功能定制;
(2)跨平台:Windows/Linux/Mac OS平台全兼容;
(3)支持外接设备:除常用USB设备外,打印机和扫描仪等设备也能在远程使用;
(4)丰富的媒体支持:包括视频、音频、图像;
(5)更小的带宽占用:Spice里内置图像压缩算法,有效减少数据传输时的带宽占用;

(6)更安全的数据传输:Spice可以使用OpenSSL加密传输数据。

3 CPU相关概念

3.1 超线程

超线程是英特尔所研发的一种技术,于2002年发布。超线程的英文是HT技术,全名为Hyper-Threading,中文又名超线程。
采用超线程技术可在同一时间里,应用程序可以使用芯片的不同部分。虽然单线程芯片每秒钟能够处理成千上万条指令,但是在任一时刻只能够对一条指令进行操作。而超线程技术可以使芯片同时进行多线程处理,使芯片性能得到提升。
超线程技术是在一颗CPU同时执行多个程序而共同分享一颗CPU内的资源,理论上要像两颗CPU一样在同一时间执行两个线程,P4处理器需要多加入一个Logical CPU Pointer(逻辑处理单元)。因此新一代的P4 HT的die的面积比以往的P4增大了5%。而其余部分如ALU(整数运算单元)、FPU(浮点运算单元)、L2 Cache(二级缓存)则保持不变,这些部分是被分享的。
虽然采用超线程技术能同时执行两个线程,但它并不象两个真正的CPU那样,每个CPU都具有独立的资源。当两个线程都同时需要某一个资源时,其中一个要暂时停止,并让出资源,直到这些资源闲置后才能继续。因此超线程的性能并不等于两颗CPU的性能。每个单位时间内,CPU只能处理一个线程,以这样的单位进行,如果想要在单位时间内处理超过一个的线程,是不可能的,除非是有两个核心处理单元,英特尔的HT技术便是以单个核心处理单元,去整合两个逻辑处理单元,也就是一个实体核心,两个逻辑核心,在单位时间内处理两个线程,模拟双核心运作。从实质上说,超线程是一种可以将CPU内部暂时闲置处理资源充分“调动”起来的技术。
使用前提:
  (1)需要CPU支持
  目前正式支持超线程技术的CPU有Pentium4 3.06GHz 、2.40C、2.60C、2.80C 、3.0GHz、3.2GHz以及Prescott处理器,还有部分型号的Xeon。
  (2)需要主板芯片组支持
  需要正式支持超线程技术的主板芯片组支持超线程技术的使用,而早前的一些芯片组只能升级BIOS就可以解决支持的问题
  (3)需要主板BIOS支持
  主板厂商必须在BIOS中支持超线程才行。
  (4)需要操作系统支持
  目前微软的操作系统中只有Windows XP专业版及后续版本支持此功能,而在Windows 2000上实现对超线程支持的计划已经取消了。
  (5)需要应用软件支持
   一般来说,只要能够支持多处理器的软件均可支持超线程技术,但是实际上这样的软件并不多,而且偏向于图形、视频处理等专业软件方面,游戏软件极少有支持的。应用软件有Office 2000、Office XP等。另外Linux kernel 2.4.x以后的版本也支持超线程技术。

4 防火墙相关概念

4.1 ptables、firewalld区别

centos7系统使用firewalld服务替代了iptables服务,但是依然可以使用iptables来管理内核的netfilter

但其实iptables服务和firewalld服务都不是真正的防火墙,只是用来定义防火墙规则功能的管理工具,将定义好的规则交由内核中的netfilter(网络过滤器来读取)从而实现真正的防火墙功能

5 分布式相关概念

5.1 Quorum机制

一,Quorum机制介绍
在分布式系统中有个CAP理论,对于P(分区容忍性)而言,是实际存在 从而无法避免的。因为,分布系统中的处理不是在本机,而是网络中的许多机器相互通信,故网络分区、网络通信故障问题无法避免。因此,只能尽量地在C 和 A 之间寻求平衡。对于数据存储而言,为了提高可用性(Availability),采用了副本备份,比如对于HDFS,默认每块数据存三份。某数据块所在的机器宕机了,就去该数据块副本所在的机器上读取(从这可以看出,数据分布方式是按“数据块”为单位分布的)
但是,问题来了,当需要修改数据时,就需要更新所有的副本数据,这样才能保证数据的一致性(Consistency)。因此,就需要在 C(Consistency) 和 A(Availability) 之间权衡。
而Quorum机制,就是这样的一种权衡机制,一种将“读写转化”的模型。在介绍Quorum之前,先看一个极端的情况:WARO机制
WARO(Write All Read one)是一种简单的副本控制协议,当Client请求向某副本写数据时(更新数据),只有当所有的副本都更新成功之后,这次写操作才算成功,否则视为失败。
从这里可以看出两点:①写操作很脆弱,因为只要有一个副本更新失败,此次写操作就视为失败了。②读操作很简单,因为,所有的副本更新成功,才视为更新成功,从而保证所有的副本一致。这样,只需要读任何一个副本上的数据即可。假设有N个副本,N-1个都宕机了,剩下的那个副本仍能提供读服务;但是只要有一个副本宕机了,写服务就不会成功。
WARO牺牲了更新服务的可用性,最大程度地增强了读服务的可用性。而Quorum就是更新服务和读服务之间进行一个折衷。
Quorum机制是“抽屉原理”的一个应用。定义如下:假设有N个副本,更新操作wi 在W个副本中更新成功之后,才认为此次更新操作wi 成功。称成功提交的更新操作对应的数据为:“成功提交的数据”。对于读操作而言,至少需要读R个副本才能读到此次更新的数据。其中,W+R>N ,即W和R有重叠。一般,W+R=N+1
假设系统中有5个副本,W=3,R=3。初始时数据为(V1,V1,V1,V1,V1)–成功提交的版本号为1
当某次更新操作在3个副本上成功后,就认为此次更新操作成功。数据变成:(V2,V2,V2,V1,V1)–成功提交后,版本号变成2
因此,最多只需要读3个副本,一定能够读到V2(此次更新成功的数据)。而在后台,可对剩余的V1 同步到V2,而不需要让Client知道。

二,Quorum机制分析

①Quorum机制无法保证强一致性
所谓强一致性就是:任何时刻任何用户或节点都可以读到最近一次成功提交的副本数据。强一致性是程度最高的一致性要求,也是实践中最难以实现的一致性。
因为,仅仅通过Quorum机制无法确定最新已经成功提交的版本号。
比如,上面的V2 成功提交后(已经写入W=3份),尽管读取3个副本时一定能读到V2,如果刚好读到的是(V2,V2,V2),则此次读取的数据是最新成功提交的数据,因为W=3,而此时刚好读到了3份V2。如果读到的是(V2,V1,V1),则无法确定是一个成功提交的版本,还需要继续再读,直到读到V2的达到3份为止,这时才能确定V2 就是已经成功提交的最新的数据。
1)如何读取最新的数据?—在已经知道最近成功提交的数据版本号的前提下,最多读R个副本就可以读到最新的数据了。
2)如何确定 最高版本号 的数据是一个成功提交的数据?—继续读其他的副本,直到读到的 最高版本号副本 出现了W次。
②基于Quorum机制选择 primary
中心节点(服务器)读取R个副本,选择R个副本中版本号最高的副本作为新的primary。
新选出的primary不能立即提供服务,还需要与至少与W个副本完成同步后,才能提供服务—为了保证Quorum机制的规则:W+R>N
至于如何处理同步过程中冲突的数据,则需要视情况而定。
比如,(V2,V2,V1,V1,V1),R=3,如果读取的3个副本是:(V1,V1,V1)则高版本的 V2需要丢弃。
如果读取的3个副本是(V2,V1,V1),则低版本的V1需要同步到V2
三,Quorum机制应用实例
HDFS高可用性实现
HDFS的运行依赖于NameNode,如果NameNode挂了,那么整个HDFS就用不了了,因此就存在单点故障(single point of failure);其次,如果需要升级或者维护停止NameNode,整个HDFS也用不了。为了解决这个问题,采用了QJM机制(Quorum Journal Manager)实现HDFS的HA(High Availability)。注意,一开始采用的“共享存储”机制,关于共享存储机制的不足,可参考:(还提到了QJM的优点)

In a typical HA cluster, two separate machines are configured as NameNodes.
At any point in time, exactly one of the NameNodes is in an Active state, and the other is in a Standby state.
The Active NameNode is responsible for all client operations in the cluster, while the Standby is simply acting as a slave,
maintaining enough state to provide a fast failover if necessary.
为了实现HA,需要两台NameNode机器,一台是Active NameNode,负责Client请求。另一台是StandBy NameNode,负责与Active NameNode同步数据,从而快速 failover。
那么,这里就有个问题,StandBy NameNode是如何同步Active NameNode上的数据的呢?主要同步是哪些数据呢?
数据同步就用到了Quorum机制。同步的数据 主要是EditLog。
In order for the Standby node to keep its state synchronized with the Active node,
both nodes communicate with a group of separate daemons called “JournalNodes” (JNs).
数据同步用到了一个第三方”集群“:Journal Nodes。Active NameNode 和 StandBy NameNode 都与JournalNodes通信,从而实现同步。
‘’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’
每次 NameNode 写 EditLog 的时候,除了向本地磁盘写入 EditLog 之外,也会并行地向 JournalNode 集群之中的每一个 JournalNode 发送写请求,只要大多数 (majority) 的 JournalNode 节点返回成功就认为向 JournalNode 集群写入 EditLog 成功。如果有 2N+1 台 JournalNode,那么根据大多数的原则,最多可以容忍有 N 台 JournalNode 节点挂掉。
这就是:Quorum机制。每次写入JournalNode的机器数目达到大多数(W)时,就认为本次写操作成功了。

6 网络相关概念

6.1 DHCP

DHCP 是 Dynamic Host Configuration Protocol(动态主机分配协议)缩写, 它分为两个部份:一个是服务器端,而另一个是客户端。所有的 IP 网络设定数据都由 DHCP 服务器集中管理,并负责处理客户端的 DHCP 要求;而客户端则会使用从服务器分配下来的IP环境数据。

它有一个租用地址的时期.就相当于我有很多的地址.假入你需要的话.我就借给你用几天.在一定的时期之内(指租用期限已到)你就会把地址还我.DHCP服务器.他有一个IP地址池.如果哪个计算机先来申请的话.他就从IP 地址池中捞一个起来.借给你用.你用完了.就还给我。

你可能感兴趣的:(术语解释 -ceph、Spice、VNC、Quorum机制)