Linux集群服务知识点总结及通过案例介绍如何实现高性能web服务(一)

一:集群相关概念及知识点介绍:

LVS(Linux Virtual System)

          本项目在19985月由章文嵩博士成立,是中国国内最早出现的Free Software项目之一。linux虚拟服务器(LVS)项目在linux操作系统上提供了最常见的负载均衡软件。

集群定义

          集群(cluster)技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中

的核心技术。本文就集群系统的定义、发展趋势、任务调度等问题进行了简要论述。集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。

集群系统的主要优点:(高可扩展性、高可用性、高性能、高性价比)

目前运行在LINUX最主流的三种集群:

负载集群之一:LB(Load Balancing)

      负载均衡集群运行时,一般通过一个或者多个前端负载均衡器(Director Server),将用户发来的请求资源信息,通过一种调度算法发送至到后端的一组应用服务器(Real Server)上,从而达到整个系统的高性能和高可用性。这样的计算机集群有时也被称为服务器群(Server Farm)

一般高可用性集群和负载均衡集群会使用类似的技术,或同时具有高可用性与负载均衡的特点。

负载集群之二:HA(High-Availability)

       一般是指当集群中有某个节点失效的情况下,其上的任务会自动转移到其他正常的节点上。并且还可以将集群中的某节点进行离线维护再上线,该过程并不影响

整个集群的运行。

高可用集群:为了保证服务一直在线的高可用能力的集群

衡量标准:可用性=在线时间/(在线时间+故障处理时间)

负载集群之三:HP

        高性能计算集群采用将计算任务分配到集群的不同计算节点从而提高计算能力,因而主要应用在科学计算领域。比较流行的HPC采用Linux操作系统和其它一些免费软

件来完成并行运算。这一集群配置通常被称为Beowulf集群。这类集群通常运行特定的程序以发挥HPC cluster的并行能力。这类程序一般应用特定的运行库, 比如专为科学计算设计的MPI库。

HPC集群特别适合于在计算中各计算节点之间发生大量数据通讯的计算作业,比如一个节点的中间结果或影响到其它节点计算结果的情况。

高性能处理集群:

        利用的是分布式存储:分布式文件系统,分布式文件系统把一个大任务切割为小任务、分别进行处理

LVS系统结构:

                    负载均衡器(Load Balancer)、服务器群组(Server Aarry)、共享存储(Shared Storage)

负载均衡层

         整个集群服务最前端设备,它有一个或多个调度器(Director Server)组成,LVS软件运行在调度服务器上。

调度服务器的功能

将用户的请求,根据调度算法进行IP分流,将数据包发送到后端应用服务器上(Real Server),如果调度服务器安装了 监控模块Ldirectord,那么调度服务器会将出现故障的应用服务器标记为不可用,知道此应用服务器恢复正常。

服务器群组层

          这是由一个或者多个应用程序服务器(Real Server)组成,并且每个应用服务器提供相同的服务,调度服务器会将用户的请求定向到具体的应用服务器上,然后由后端的应用服务器响应客户端。

共享存储层

          功能只要是保证服务器群组中的应用服务器提供数据的一致性。

共享存储的实现方式

          磁盘阵列、集群文件系统(OCFS2)

LVS是linux系统上的一种机制,类似于iptables,其相关属性也是通过(ipvsadm)与iptables命令类似的方式定义的,

LVS是工作于linux系统内核空间,通过内核来提供工作,其工作空间在iptables的INPUT链上,当客户端请求到达INPUT链上以后,通过LVS规则的验证,如果是内部请求,发送至用户空间,如果发现是集群,将此请求发送至POSTROUTING链,并交给后端应用程序服务器来响应用户的请求。

注意:上面所提到LVS其实是工作在iptables的INPUT和postrouting链上的,所以在此系统上iptables和LVS不能同时存在。

LVS的组成:

ipvsadm:用于管理集群服务的命令行工具,工作于Linux系统中的用户空间

ipvs:为lvs提供服务的内核模块,工作于内核空间 (相对于是框架,通过ipvsadm添加规则,来实现ipvs功能)

注:在linux内核2.4.23之前的内核中模块默认是不存在的,需要自己手动打补丁,然后把此模块编译进内核才可以使用此功能

LVS类型:

               LVS-NAT模式、LVS-DR模式、LVS-TUN模式

NAT:(Network address translation)

          原理:把用户的请求发来的IP包的IP报头目的地址,通过LVS服务器转换至后端提供服务的Real Server的地址并将用户的请求报文发送至应用服务器。而应用服务器打开报文并响应用户请求发送并经过LVS服务器,LVS服务器将源地址修改为LVS服务器接口上的VIP地址。

NAT模式特点:

1
2
3
4
5
6
7
8
9
用户发来的请求和响应,都必须经过LVS服务器。
集群节点跟Director必须在同一个IP网络中;
RIP通常是私有地址,仅用于各集群节点间的通信;
Director位于Client和Real Server之间,并负责处理进出的所有通信;
Realserver必须将网关指向DIP地址;
支持端口映射;
Realserver可以使用任意OS;
LVS服务器必须有两块网卡
较大规模应该场景中,Director易成为系统瓶颈;


DR:(Direct routing)

          DR模式工作在数据链路层,其原理,LVS服务器和应用服务器使用同一个IP地址对外服务,但只有LVS服务器对ARP请求进行响应,所有应用服务器对本身这个IP地址的ARP请求保持静默。网关会把所有的ARP请求定向至LVS服务器,而LVS服务器收到用户请求数据报文,根据调度算法进行IP分流,然后相应的MAC地址的修改,发送至后端对应的应用服务器。

注:由于LVS服务器对二层数据包进行修改,所以LVS服务器和应用服务器必须在同一个广播域。

DR模式特点

1
2
3
4
5
集群节点跟director必须在同一个物理网络中;
RIP可以使用公网地址,实现便捷的远程管理和监控;
Director仅负责处理入站请求,响应报文则由Real Server直接发往客户端;
Real Server不能将网关指向DIP;
不支持端口映射;


注:在DR模式中,LVS服务器只负责接收用户请求,根据调度算法及IP分流,直接路由转发,其响应报文交给Real Server自行处理。

          DR模式是三种模式当中性能最好的,唯一的缺陷是LVS服务器和后端的应用服务器必须在同一个广播域中,因此不能实现集群的跨网端应用。

TUN (IP Tunnel模式)

          TUN模式,LVS将TCP/IP请求进行重新封装并转发给目标应用服务器,有目标应用程序服务器对用户请求做出相应。LVS Router和Real Server通过Tp Tunnel通过隧道技术

进行转发,因此两者可以存在不同的网络当中。

注:由于应用服务器需要对LVS发送的报文进行还原,也就是说应用服务器也要支持Ip Tunnel协议。(Network options)

TUN模式特点:

1
2
3
4
5
6
集群节点可以跨越Internet;
RIP必须是公网地址;
Director仅负责处理入站请求,响应报文则由Real Server直接发往客户端;
Real Server网关不能指向director;
只有支持隧道功能的OS才能用于Real Server;
不支持端口映射;


LVS负载均衡八种调度算法:

                                          rr-->wrr-->lc-->wlc-->lblc-->lblcr-->dh-->sh

轮叫(Round Robin):

          该算法将用户请求有次序地分发到后端的应用服务器,均等看待所有Real Server,而并不计算具体服务器上的链接和负载。

加权轮叫(Weighted Round Robin):

          该调度算法根据各个应用服务器的不同负载能力,给服务器设置不同的权值,处理能力强的应用服务器的权值设置大点,来响应更多的用户请求。

最少连接(Least Connections):

          该算法将用户发送的请求分配到连接做少的应用服务器上。

加权最少连接(Weighted Least Connections):

          该算法根据应用服务器的不同负载能力,设置不同大小不同的权值,权值较大并且连接请求数少的应用服务器则优先分配用户请求信息。

基于局部性最少连接:(Locality-Based Least Connections):

          该算法针对目标IP地址的负载均衡算法,主要用于缓存集群系统。此算法会根据用户请求的目标IP地址找出与目标地址最近的应用服务器,如果服务器没有超载,则请求被分发到该应用服务器,如果服务器不可用或者负载较大,则使用最少连接算法,选择目标应用服务器

带复制的基于局部性最少连接(Locality-Based Least Connections wiht Replication)

          该算法也是针对目标IP地址的负载均衡算法,主要用于缓存集群系统。域LBLC区别在于,前者维护一个IP地址到一组服务器的映射。而后者则是维护一个IP地址到一台应用服务器的映射。

目标地址散列(Destination Hashing)

          该算法将用户请求的目标地址作为散列键,并尝试从静态分配的散列表中找出对应的应用服务器。如果目标应用服务器没有超载,那么将用户的请求信息分发至该应用服务里,否则返回空。

源地址散列(Source Hashing)

          该算法将请求的源地址作为散列键,并尝试从静态分配的散列表中找出对应的应用服务器。如果目标应用服务器可用并且没有超载,那么将用户请求的信息分发至此应用服务器,否则返回空。

LVS IP Address Name Conventions:(LVS Ip-address 命名规范)

1
2
3
4
5
Director's IP (DIP) address :中间层,根据不同模式,来接收并响应用户的请求。
Virtual IP (VIP) address:向外提供服务的地址。
Real IP (RIP) address :Real Server IP:后端提供应用服务的主机地址。
Director's IP (DIP) address :和内部的IP通信所使用的地址:设置在Director Server上
Client computer's IP (CIP) address:客户端地址

ipvsadm命令详细介绍:

pvsadm: 管理集群服务的命令行工具,而ipvs系统内核中的一个模块

ipvsadm命令的基本使用:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
-A:在内核的虚拟服务器列表中添加一条VIP记录
-E:修改内核虚拟服务器列表中的一条VIP记录
-D:删除内核虚拟服务器列表中的一条VIP记录
-C:清空内核虚拟服务器列表中的所有VIP记录
-S:保存虚拟服务器规则
-R:恢复虚拟服务器策略规则
-a:在内核虚拟服务器列表中添加一个应用服务器的地址。
-e:修改一个虚拟服务器列表中的一条应用服务器地址记录
-d:删除一个虚拟服务器列表中的一条应用服务器地址记录
-L/-l: 查看内核虚拟服务器列表
-Z:将内核中的虚拟服务器计数清为 0
-t service-address:指定虚拟服务器使用TCP服务
-u service-address:指定虚拟服务器使用UDP服务
-s scheduler:指定调度算法:
-p timeout:在应用服务器上的持续服务时间,单位为秒
-r service-address:指定应用服务器的地址
-g:指定LVS工作模式为直接路由(DR-defalut)
-I:指定LVS工作模式为隧道模式(Ip Tunnel)
-m:指定LVS工作模式为地址转换模式(NAT)
-w:设定应用服务器的权值


你可能感兴趣的:(Linux集群服务)