Linux LVS集群

一.集群

随着互联网的发展,大量的客户请求蜂拥而至,同时服务器的负载也越来越大,然而单台服务器的负载又是有限的,这样就会导致服务器响应客户端请求的时间越长,甚至产生拒绝服务的情况。另外,目前的网站多数是7x24小时提供不间断网络服务,如果仅采用单点服务器对外提供网络服务,那么在出现单点故障时,将导致整个网络服务中断。这时我们需要部署集群架构,最终将成百上千台主机有机地结合在一起,以满足当前大数据时代的海量访问负载。在部署集群环境时可以选择的产品有很多,有些事基于硬件实现的,有些是基于软件实现的。其中负载均衡的硬件设备有F5的BIG-IP、Radware和AppDirector,以及梭子鱼的负载均衡设备等,软件有基于Linux的LVS、Nginx和HAProxy等产品。在集群环境中的核心是负载均衡和高可用,下面将围绕这两点核心功能进行软件实现。

Linux LVS集群_第1张图片

 

二.LVS负载均衡

LVS(Linux Virtual Server)即Linux虚拟服务器,是由章文嵩博士主导开发的开源负载均衡项目,目前LVS已经被集成到Linux内核模块中。该项目在Linux内核中实现了基于IP的数据请求负载均衡调度方案,其体系结构如图所示:

Linux LVS集群_第2张图片

终端互联网用户从外部访问公司的外部负载均衡服务器,终端用户的Web请求会发送给LVS调度器,调度器根据自己预设的算法决定将该请求发送给后端的某台Web服务器,比如,轮询算法可以将外部的请求平均分发给后端的所有服务器,终端用户访问LVS调度器虽然会被转发到后端真实的服务器,但如果真实服务器连接的是相同的存储,提供的服务也都是相同的服务,最终用户不管是访问哪台真实的服务器,得到的服务内容都是一样的,整个集群对用户而言都是透明的。最后根据LVS工作模式的不同,真实服务器会选择不同的方式将用户需要的数据发送给终端用户,LVS工作模式分为NAT模式、TUN模式以及DR模式。

 

三.基于NAT的LVS负载均衡

NAT(Network Address Translation)即网络地址转换,其作用是通过数据报头的修改,使位于企业内部的私有IP地址可以访问外网,以及外部用户可以访问位于公司内部的私有IP主机。VS/NAT工作模式拓扑结构如图所示:

Linux LVS集群_第3张图片

LVS负载调度器使用两块网卡配置不同的IP地址,eno16777736设置为私钥IP与内部网络通过交换设备相互连接,eno33554984设置为外网IP与外部网络联通。

第一步,用户通过互联网DNS服务器解析到公司负载均衡设备上面的外网IP地址,相对于真实服务器而言,LVS的外网IP又称为VIP(Virtual IP Address),用户通过访问VIP,即可连接后端的真实服务器(Real Server),而这一切对用户而言都是透明的,用户以为自己访问的就是真实的服务器,但他并不知道自己访问的VIP仅仅是一个调度器,也不清楚后端的真实服务器到底在哪里、有多少台真实服务器。

第二步,用户将数据请求发送至124.126.147.168,此时LVS将根据预设的算法选择后端的一台真实服务器(192.168.0.1-192.168.0.3),将数据请求包转发给真实服务器,并且在转发之前LVS会修改数据包中的目标地址及目标端口,目标地址与目标端口将被修改为选出的真实服务器IP地址及相应的端口。

第三步,真实的服务器将响应数据包返回给LVS调度器,调度器在得到响应数据包后会将源地址与源端口修改为VIP及调度器相应的端口,修改完成后,由调度器将响应数据包发送回终端用户。另外,由于LVS调度器有一个连接Hash表,该表中会记录连接请求及转发信息,当同一个连接的下一个数据包发送给调度器时,从该Hash表中可以直接找到之前的连接记录,并根据该记录信息选出相同的真实服务器及端口信息。

 

四.基于TUN的LVS负载均衡

在LVS(NAT)模式的集群环境中,由于所有的数据请求及响应的数据包都需要经过LVS调度器转发,如果后端服务器的数量大于10台,则调度器就会成为整个集群环境的瓶颈。我们知道,数据请求包往往远远小于响应数据包的大小。因为响应数据包中包含有客户需要的具体数据,所以LVS(TUN)的思路就是将请求和响应数据分离,让调度器仅处理数据请求,而让真实服务器将响应数据包直接返回给客户端。VS/TUN工作模式拓扑结构如图所示:

Linux LVS集群_第4张图片

其中,IP隧道(IP tunning)是一种数据包封装技术,它可以将原始数据包封装并添加新的包头(内容包括新的源地址及端口、目标地址及端口),从而实现将一个目标为调度器VIP地址的数据包封装,通过隧道转发给后端的真实服务器(Real Server),通过将客户端发往调度器的原始数据包封装,并在其基础上添加新的数据包头(修改目标地址为调度器选择出来的真实服务器的IP地址及对应端口),LVS(TUN)模式要求真实服务器可以直接与外部网络连接,真实服务器在收到请求数据包后直接给客户端主机响应数据。

 

五.基于DR的LVS负载均衡

在LVS(TUN)模式下,由于需要在LVS调度器与真实服务器之间创建隧道连接,这同样会增加服务器的负担。与LVS(TUN)类似,DR模式也叫直接路由模式,其体系结构如图所示:

Linux LVS集群_第5张图片

该模式中LVS依然仅承担数据的入站请求以及根据算法选出合理的真实服务器,最终由后端真实服务器负责将响应数据包发送返回给客户端。与隧道模式不同的是,直接路由模式要求调度器与后端服务器必须在一个局域网内,VIP地址需要在调度器与后端所有的服务器间共享,因为最终的真实服务器给客户端回应数据包时需要设置源IP为VIP地址,目标IP为客户端IP,这样客户端访问的是调度器的VIP地址,回应的源地址也依然是该VIP地址(真实服务器上的VIP),客户端是感觉不到后端服务器存在的。由于多台计算机都设置了同样一个VIP地址,所以在直接路由模式中要求调度器的VIP地址是对外可见的,客户端需要将请求数据包发送到调度器主机,而所有的真实服务器的VIP地址必须配置在Non-ARP的网络设备上,也就是该网络设备并不会向外广播自己的MAC以及对应的IP地址,真实服务器的VIP对外界是不可见的,但真实服务器却可以接收目标地址为VIP的网络请求,并在回应数据包时将源地址设置为该VIP地址。调度器根据算法在选出真实服务器后,在不修改数据报文的情况下,将数据帧的MAC地址修改为选出的服务器的MAC地址,通过交换机将该数据帧转发给真实服务器。整个过程中,真实服务器的VIP不需要对外界可见。

 

六.LVS负载均衡调度算法

根据前面的介绍,我们了解了LVS的三种模式,但不管实际环境中采用的是哪种模式,调度器进行调度的策略与算法都是LVS的核心技术,LVS在内核中主要实现了以下八种调度算法。

(1)轮询调度

(2)加权轮询调度

(3)最小连接调度

(4)加权最小连接调度

(5)基于局部性最小的连接

(6)带复制的基于局部性最小连接

(7)目标地址散列调度

(8)源地址散列调度

轮询算法(RR)就是按依次循环的方式将请求调度到不同的服务器上,该算法最大的特点就是实现简单。轮询算法假设所有的服务器处理请求的能力都是一样的,调度器会将所有的请求平均分配给每个真实服务器。

加权轮询算法(WRR)主要是对轮询算法的一种优化与补充,LVS会考虑每台服务器的性能,并给每台服务器添加一个权值,如果服务器A的权值为1,服务器B的权值为2,则调度器调度到服务器B的请求会是服务器的A的两倍。权值越高的服务器,处理的请求越多。

最小连接调度算法(LC)将把请求调度到连接数量最小的服务器上,而加权最小连接算法(WLC)则是给每个服务器一个权值,调度器会尽可能保持服务器连接数量与权值之间的平衡。

基于局部性的最小连接调度算法(LBLC)是请求数据包的目标IP地址的一种调度算法,该算法先根据请求的目标IP地址寻找最近该目标IP地址所使用的服务器,如果这台服务器依然可用,并且有能力处理该请求,调度器会尽量选择相同的服务器,否则会继续选择其他可行的服务器。带复制的基于局部性最小连接算法(LBLCR)记录的不是一个目标IP与一台服务器之间连接记录,它会维护一个目标IP到一组服务器之间的映射关系,防止单点服务器负载过高。

目标地址散列调度算法(DH)也是根据目标IP地址通过散列函数将目标IP与服务器建立映射关系,出现服务器不可用或负载过高的情况下,发往该目标IP的请求会固定发给该服务器。

源地址散列调度算法(SH)与目标地址散列调度算法类似,但它是根据源地址散列调度算法进行静态分配固定的服务器资源。

你可能感兴趣的:(Linux)