Linux Cluster:Linux集群

扩展方式:

Scale up: 垂直扩展,即使用性能更好的主机来取代当前主机

Scale out: 横向扩展,即增加服务器,获得容量的提升以到达性能的优化

director[ 调度器 ], dispatcher[ 分发器 ], load balancer[ 负载均衡器 ]

 

Linux Cluster类型:

负载均衡集群:LB [ Load Balancing ]

高可用集群:HA [ High Availability ]

可用性 =  一个系统的平均无故障时间/(平均无故障时间+平均修复时间)

95%, 99%, 99.9%, 99.99%, 99.999%

高性能集群:HP [ High Performance ]

 

构建高可扩展的系统,应该遵循的一个基本原则:在系统内部尽量避免串行化和交互;

 

 

设置集群思路:

 

1)分层:接入层 --> 应用层 --> 服务层 --> 数据层

2)分割:化整为零,切割大业务为多个小业务

3)分布式:

分布式应用

分布式静态资源

分布式数据和存储

分布式计算

 

可扩展性”、“高可用性”、“性能”:

性能:响应时间;

容量:在一定时间内能完成的工作量;容量必须是可有效利用;

最大吞吐量:基准性能测试时得出的数据指标;系统容量的极限;

容量:在保证可接受性能的情况下能够达到的吞吐量;

可扩展性:表明了需要增加资源以完成更多的工作任务时能够获得的划算地等同提升;

 

Linux的集群类型:LBHAHP

 

LB集群调度器的实现:

工作在协议层来划分:

tcp:根据请求报文中的目标地址和端口进行调度;

应用层:根据请求的内容进行调度,而且此种调度为“代理”方式;

 

软件:

tcp: lvs (Linux Virtual Server), haproxy, nginx

http: haproxy, nginx, apache(proxy module, balancer module), ats(apache traffic server), squid, varnish

mysql: mysql-proxy

硬件:

F5Big-IP

Citrix: NetScaler

A10: A10

Array:

RedWare

 

lvs: Linux Virtual Server,是由章文嵩设计开发的

 

根据目标地址和端口作出转发与否的决策,根据调度方法作出转发至哪一个后端的决策;

 

组成部分:ipvs, ipvsadm

 

netfilter:

PREROUTINGINPUTFORWARDOUTPUTPOSTROUTING

 

ipvs工作于netfilterINPUT链接;

ipvsadm用于在ipvs上定义集群服务:同时也得定义此集群服务对应于有哪个后端主机可用;

根据所指定的调度方法(算法)作出调度决策;

 

支持的协议:TCP, UDP, SCTP, AH, ESP, AH_ESP

 

lvs中的常用术语约定:

Host:

Director:调度器

Real Server: RS,后端提供服务的主机

IP

Client: CIP

Director Virtual IP: VIP

Directory IP: DIP

Real IP: RIP

 

lvs的类型:

 

lvs-nat:类似于DNAT,但支持多目标转发;

它通过修改请求报文的目标地址为根据调度算法所挑选出的某RSRIP来进行转发;

 

架构特性:

(1) RS应该使用私有地址,即RIP应该为私有地址;各RS的网关必须指向DIP

(2) 请求和响应报文都经由Director转发;高负载场景中,Director易于成为系统瓶颈;

(3) 支持端口映射;

(4) RS可以使用任意类型的OS;

(5) RSRIP必须与DirectorDIP在同一网络;

 

lvs-dr:直接路由

Director在实现转发时不修改请求的IP首部,而是通过直接封装MAC首部完成转发;目标MACDirector根据调度方法挑选出某RSMAC地址;拓扑结构有别有NAT类型;

 

架构特性:

(1) 保证前端路由器将目标地址为VIP的请求报文通过ARP地址解析后送往Director

解决方案:

静态绑定:在前端路由直接将VIP对应的目标MAC静态配置为DirectorMAC地址;

arptables:在各RS上,通过arptables规则拒绝其响应对VIPARP广播请求;

内核参数:在RS上修改内核参数,并结合地址的配置方式实现拒绝响应对VIPARP广播请求;

(2) RSRIP可以使用私有地址;但也可以使用公网地址,此时可通过互联网上的主机直接对此RS发起管理操作;

(3) 请求报文必须经由Director调度,但响应报文必须不能经由Director;

(4) RIP必须与DIP在同一个物理网络中;

(5) 不支持端口映射;

(6) RS可以使用大多数的OS

(7) RS的网关一定不能指向Director

 

lvs-tun: 不修改请求报文IP首部,而是通过IP隧道机制在原有的IP报文之外再封装IP首部,经由互联网把请求报文交给选定的RS

CIP;VIP DIP;RIP

 

架构特性:

(1) RIP, DIP, VIP都是公网地址;

(2) RS的网关不能,也不可能指向DIP;

(3) 请求报文由Director分发,但响应报文直接由RS响应给Client

(4) 不支持端口映射;

(5) RSOS必须得支持IP隧道;

 

lvs-fullnat:通过请求报文的源地址为DIP,目标为RIP来实现转发;对于响应报文而言,修改源地址为VIP,目标地址为CIP来实现转发;

 

架构特性:

(1) RIP,DIP可以使用私有地址;

(2) RIPDIP可以不在同一个网络中,且RIP的网关未必需要指向DIP

(3) 支持端口映射;

(4) RSOS可以使用任意类型;

(5) 请求报文经由Director,响应报文经由Director

 

lvs scheduler[ 调度方法 ]:

 

静态方法:仅根据算法本身实现调度;

RR: round-robin, 轮询;轮叫、轮调、轮流;

轮叫调度就是以轮叫的方式依次将请求调度不同的服务器,即每次调度执行i = (i + 1) mod n,并选出第i台服务器。算法的优点是其简洁性,它无需记录当前所有连接的状态,所以它是一种无状态调度。轮叫调度算法假设所有服务器处理性能均相同,不管服务器的当前连接数和响应速度。该算法相对简单,不适用于服务器组中处理性能不一的情况,而且当请求服务时间变化比较大时,轮叫调度算法容易导致服务器间的负载不平衡。

WRRweighted round-robin, 加权轮询;

该算法可以解决服务器间性能不一的情况,它用相应的权值表示服务器的处理性能,服务器的缺省权值为1。假设服务器A的权值为1,B的权值为2,则表示服务器B的处理性能是A的两倍。加权轮叫调度算法是按权值的高低和轮叫方式分配请求到各服务器。权值高的服务器先收到的连接,权值高的服务器比权值低的服务器处理更多的连接,相同权值的服务器处理相同数目的连接数。

SHSource ip Hashing,源地址哈希;把来自同一个地址请求,统统定向至此前选定的RS;

源地址散列调度算法正好与目标地址散列调度算法相反,它根据请求的源IP地址,作为散列键(Hash Key)从静态分配的散列表找出对应的服务器,若该服务器是可用的且未超载,将请求发送到该服务器,否则返回空。它采用的散列函数与目标地址散列调度算法的相同。

DHDestination ip Hashing, 目标地址哈希;把访问同一个目标地址的请求,统统定向至此前选定的某RS

目标地址散列调度算法先根据请求的目标IP地址,作为散列键(Hash Key)从静态分配的散列表找出对应的服务器,若该服务器是可用的且未超载,将请求发送到该服务器,否则返回空,主要应用于缓存服务器。

 

动态方法:根据算法及后端RS当前的负载状况实现调度;

LC: least connection

最少链接,简称LC。该调度是把新的连接请求分配到当前连接数最小的服务器。最小连接调度是一种动态调度算法,它通过服务器当前所活跃的连接数来估计服务器的负载情况。调度器需要记录各个服务器已建立连接的数目,当一个请求被调度到某台服务器,其连接数加1;当连接中止或超时,其连接数减1。

Overhead=Active*256+Inactive

WLC: weighted least connection

加权最少链接,简称WLC。加权最小连接调度是最小连接调度的超集,各个服务器用相应的权值表示其处理性能。服务器的缺省权值为1,系统管理员可以动态地设置服务器的权值。加权最小连接调度在调度新连接时尽可能使服务器的已建立连接数和其权值成比例。计算当前realserver 的负载情况计算方法:

Overhead=(Active*256+Inactive)/weight

SEDShorted Expection Delay

最短的期望的延迟,简称SED。分配一个接踵而来的请求以最短的期望的延迟方式到服务器。

计算当前realserver 的负载情况计算方法:

Overhead=(Active+1)*256/weight

NQNever Queue

最小队列调度,简称NQ。分配一个接踵而来的请求到一台空闲的服务器,此服务器不一定是最快的那台,如果所有服务器都是繁忙的,它采取最短的期望延迟分配请求。

LBLCLocal-Based Least Connection,动态方式的DH算法;

基于局部性的最少链接,简称LBLC。"基于局部性的最少链接" 调度算法是针对目标IP 地址的负载均衡,目前主要用于Cache 集群系统。该算法根据请求的目标IP 地址找出该目标IP 地址最近使用的服务器,若该服务器是可用的

且没有超载,将请求发送到该服务器;若服务器不存在,或者该服务器超载且有服务器处于一半的工作负载,则用"最少链接"的原则选出一个可用的服务器,将请求发送到该服务器。

LBLCRReplicated LBLC

带复制的基于局部性最少链接,简称LBLCR。"带复制的基于局部性最少链接"调度算法也是针对目标IP 地址的负载均衡,目前主要用于Cache 集群系统。它与LBLC 算法的不同之处是它要维护从一个目标IP 地址到一组服务器的映射,而LBLC 算法维护从一个目标IP 地址到一台服务器的映射。该算法根据请求的目标IP 地址找出该目标IP 地址对应的服务器组,按"最小连接"原则从服务器组中选出一台服务器,若服务器没有超载,将请求发送到该服务器,若服务器超载;则按"最小连接"原则从这个集群中选出一台服务器,将该服务器加入到服务器组中,将请求发送到该服务器。同时,当该服务器组有一段时间没有被修改,将最忙的服务器从服务器组中删除,降低复制的程度。

Session 保持

Session Sticky

Session Replication Cluster

Session Server

 

 

ipvsadm命令的用法:

需要先安装:yum install ipvsadm

管理集群服务:创建、修改、删除

管理集群服务的RS:添加、修改、移除

查看:

统计数据

速率

 

管理集群服务:

创建或修改:

ipvsadm -A|E -t|u|f service-address [-s scheduler]

 

-A:添加

-E:修改

 

-t: 承载的应用层协议为基于TCP协议提供服务的协议;其service-address的格式为“VIP:PORT”,如“172.16.100.6:80”

例:把172.16.37.1080端口设置为集群

# ipvsadm -A -t 172.16.37.10:80 -s wlc

-u: 承载的应用层协议为基于UDP协议提供服务的协议;其service-address的格式为“VIP:PORT”,如“172.16.100.6:53”

-f:承载的应用层协议为基于TCPUDP协议提供服务的协议,但此类报文会经由iptables/netfilter打标记,即为防火墙标记;其service-address的格式为“FWM”,例如“10”

 

-s scheduler: 指明调度方法;默认为wlc

 

删除:

ipvsadm -D -t|u|f service-address

例:删除172.16.37.1080端口的集群服务

ipvsadm -D -t 172.16.37.10:80

管理集群服务上的RS

添加或修改:

ipvsadm -a|e -t|u|f service-address -r server-address [-g|i|m] [-w weight]

 

-r server-address: 指明RSserver-address格式一般为“IP[:PORT]”;注意,只支持端口映射的lvs类型中才应该显式定义此处端口

例如:-r 192.168.10.7:80

[-g|i|m]: 指明lvs类型,默认为dr类型

-g: gateway, 意为dr类型;

-i: ipip, 意为tun类型;

-m: masquerade, 意为nat类型;

[-w weight]:当前RS的权重;

注意:仅对于支持加权调度的scheduler,权重才有意义;

 

例:  添加172.16.37.10:80的一个RS192.168.10.7,为net模式,权重为2

# ipvsadm -a -t 172.16.37.10:80 -r 192.168.10.7 -m -w 2

删除:

ipvsadm -d -t|u|f service-address -r server-address

例:删除172.16.37.10:80RS 192.168.10.8

# ipvsadm -d -t 172.16.37.10:80 -r 192.168.10.8

清空所有集群服务的定义:

ipvsadm -C

 

保存及恢复集群服务及RS的定义:

保存ipvsadm规则

ipvsadm -S > /etc/sysconfig/ipvsadm

ipvsadm-save > /etc/sysconfig/ipvsadm

service ipvsadm save

 

恢复ipvsadm规则

ipvsadm -R < /etc/sysconfig/ipvsadm

ipvsadm-restore < /etc/sysconfig/ipvsadm

service ipvsadm restart

 

查看规则:

ipvsadm -L|l [options]

-c: 列出当前所有connection

--stats: 列出统计数据

--rate: 列出速率

-n, --numeric: 数字格式显示IP及端口;

--exact: 精确值;

例:ipvsadm -L -n

LVS 负载均衡调度器_第1张图片

Conns 表示当前连接数 

InPkts表示入站请求报文有多少个

OutPkts表示出站响应报文有多少个

InBytes表示入站请求报文大小

OutBytes表示出站请求报文大小

 

清空计数器:

ipvsadm -Z [-t|u|f service-address]

 

案例:lvs-nat类型的web服务器集群

LVS 负载均衡调度器_第2张图片

在调度器上建立ipvsadm规则:

172.16.37.1080端口设置为集群,以加权轮回模式

# ipvsadm -A -t 172.16.37.10:80 -s wrr

把添加172.16.37.10:80的一个RS192.168.10.7,为net模式,权重为1

# ipvsadm -a -t 172.16.37.10:80 -r 192.168.10.7 -m -w 1

把添加172.16.37.10:80的一个RS192.168.10.8,为net模式,权重为2

# ipvsadm -a -t 172.16.37.10:80 -r 192.168.10.8 -m -w 2

打开路由间转发

1) echo "1" > /proc/sys/net/ipv4/ip_forward

2)编辑配置文件/etc/systl.conf

RS1上设置

设置ip 192.168.10.7 默认路由指向 192.168.10.1

启动httpd

RS2上设置

设置ip 192.168.10.8 默认路由指向 192.168.10.1

启动httpd

测试:ab -n 1000 -c 100 http://172.16.37.10/index.html

 通过ipvsadm -Ln --stats查看状态会发现比例是1:2

LVS 负载均衡调度器_第3张图片


案例:lvs-dr类型的web服务器集群

             LVS 负载均衡调度器_第4张图片

 (1) RS要直接响应Client,因此,各RS均得配置VIP;但仅能够让Director上的VIP能够与本地路由直接通信;

(2) Director不会拆除或修改请求报文的IP首部,而是通过封闭新的帧首部(源MACDirectorMAC,目标MAC为挑选出的RSMAC)完成调度;

 

配置过程总结:

Director

(1) VIP配置在物理接口的别名上

ifconfig eth1:1 172.16.37.10 broadcast 172.16.37.10 netmask 255.255.255.255

 

(2) 配置路由信息

route add -host 172.16.37.10 dev eth1:1

 

RS:

(1) 先修改内核参数

echo 1 > /proc/sys/net/ipv4/conf/all/arp_ignore

echo 1 > /proc/sys/net/ipv4/conf/lo/arp_ignore

echo 2 > /proc/sys/net/ipv4/conf/all/arp_announce

echo 2 > /proc/sys/net/ipv4/conf/lo/arp_announce

 

(2) VIP配置在lo的别名上

ifconfig lo:0 172.16.37.10 broadcast 172.16.37.10 netmask 255.255.255.255 up

 

(3) 配置路由信息

route add -host 172.16.37.10 dev lo:0