谈一谈负载均衡的那些事

文章目录

  • Question1:介绍一下 负载均衡?
  • Answer1:
  • Question2:简要介绍一下 负载均衡算法/ 策略?
  • Answer2:
  • Question3:介绍一下 LVS ?
  • Answer3:
  • Question4:介绍一下 LVS 四种模式(NAT、DR、TUN、FULLNAT) ?
  • Answer4:
    • 1、LVS NAT 模式
    • 2、LVS DR 模式(局域网改写 mac 地址)
    • 3、LVS TUN 模式 (IP 封装、 跨网段 )
    • 4、LVS FULLNAT 模式
  • Question5:介绍一下 Keepalive ?
  • Answer5:
  • Question6:介绍一下 Nginx反向代理是如何负载均衡的?
  • Answer6:

面向面试的博客,以问答式Q/A方式呈现。


Question1:介绍一下 负载均衡?

Answer1:

含义:

负载均衡是指在现有网络结构之上,提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量 、加强网络数据处理能力、提高网络的灵活性和可用性的机制。

负载均衡包括两种,四层负载均衡和七层负载均衡,如下图所示:

注意:二层负载均衡、三层负载均衡、四层负载均衡、七层负载均衡
OSI标准的从下到上分别是:物理层,数据链路层,网络层,传输层,会话层,表示层和应用层;
二层负载均衡是OSI的第二层-数据链路层,使用MAC地址,是基于MAC地址的负载均衡,二层负载均衡会通过一个虚拟MAC地址接收请求,然后再分配到真实的MAC地址;
三层负载均衡是OSI的第三层-网络层,使用的IP协议和IP地址,是基于IP地址的负载均衡,三层负载均衡会通过一个虚拟IP地址接收请求,然后再分配到真实的IP地址;
四层负载均衡是OSI的第四层-传输层,使用的TCP协议和UDP协议,四层负载均衡是基于IP+端口的负载均衡;
七层负载均衡是OSI的最高层-应用层,是基于URL等应用层信息的负载均衡。
四层通过虚拟IP+端口接收请求,然后再分配到真实的服务器;七层通过虚拟的URL或主机名接收请求,然后再分配到真实的服务器。
王道在于:哪一层的负载均衡就是使用哪一层的头部信息进行修改目的地址并网络转发,二层负载均衡修改mac地址网络转发,三层负载均衡修改ip地址网络转发,四层负载均衡修改ip:port组合网络转发,七层负载均衡修改url域名网络转发。常见地,Nginx做一个软件层面的负载均衡服务端,既可以做四层负载均衡,根据ip:port组合网络转发,又可以根据url域名网络转发

谈一谈负载均衡的那些事_第1张图片

四层负载均衡( 目标地址和端口交换 )

工作原理:
所谓四层负载均衡,也称为“地址交换”,主要通过报文中的目标地址和端口,再加上负载均衡设备设置的服务器选择方式,决定最终选择的内部服务器。

四层负载均衡的具体明细:
以常见的 TCP 为例,负载均衡设备在接收到第一个来自客户端的 SYN 请求时,即通过上述方式选择一个最佳的服务器,并对报文中目标 IP 地址进行修改(改为后端服务器 IP),直接转发给该服务器。TCP 的连接建立,即三次握手是客户端和服务器直接建立的,负载均衡设备只是起到一个类似路由器的转发动作。在某些部署情况下,为保证服务器回包可以正确返回给负载均衡设备,在转发报文的同时可能还会对报文原来的源地址进行修改。

实现四层负载均衡的软件有:

F5 :硬件负载均衡器,功能很好,但是成本很高。
lvs :重量级的四层负载软件 。
nginx :轻量级的四层负载软件,带缓存功能,正则表达式较灵活 。
haproxy :模拟四层转发,较灵活 。

七层负载均衡(内容交换)

工作原理:
所谓七层负载均衡,也称为“内容交换”,也就是主要通过报文中的真正有意义的应用层内容,再加上负载均衡设备设置的服务器选择方式,决定最终选择的内部服务器。

七层负载均衡相对于四层负载均衡的优点:
七层应用负载的好处,是使得整个网络更智能化。例如访问一个网站的用户流量,可以通过七层的方式,将对图片类的请求转发到特定的图片服务器并可以使用缓存技术;将对文字类的请求可以转发到特定的文字服务器并可以使用压缩技术。

实现七层负载均衡的软件有:

haproxy :天生负载均衡技能,全面支持七层代理,会话保持,标记,路径转移;
nginx :只在 http 协议和 mail 协议上功能比较好,性能与 haproxy 差不多;
apache :功能较差
Mysql proxy :功能尚可。


Question2:简要介绍一下 负载均衡算法/ 策略?

Answer2:

1、轮循均衡(Round Robin)

每一次来自网络的请求轮流分配给内部中的服务器,从 1 至 N 然后重新开始。此种均衡算法适合于服务器组中的所有服务器都有相同的软硬件配置并且平均服务请求相对均衡的情况。

2、权重轮循均衡(Weighted Round Robin)

根据服务器的不同处理能力,给每个服务器分配不同的权值,使其能够接受相应权值数的服务请求。例如:服务器 A 的权值被设计成 1,B 的权值是 3,C 的权值是 6,则服务器 A、B、C 将分别接受到 10%、30%、60%的服务请求。此种均衡算法能确保高性能的服务器得到更多的使用率,避免低性能的服务器负载过重。

3、随机均衡(Random)

把来自网络的请求随机分配给内部中的多个服务器。

4、权重随机均衡(Weighted Random)

此种均衡算法类似于权重轮循算法,不过在处理请求分担时是个随机选择的过程。

5、最少连接数均衡(Least Connection)

最少连接数均衡算法对内部中需负载的每一台服务器都有一个数据记录,记录当前该服务器正在处理的连接数量,当有新的服务连接请求时,将把当前请求分配给连接数最少的服务器,使均衡更加符合实际情况,负载更加均衡。此种均衡算法适合长时处理的请求服务,如 FTP。

6、处理能力均衡(CPU、内存)

此种均衡算法将把服务请求分配给内部中处理负荷(根据服务器 CPU 型号、CPU 数量、内存大小及当前连接数等换算而成)最轻的服务器,由于考虑到了内部服务器的处理能力及当前网络运行状况,所以此种均衡算法相对来说更加精确,尤其适合运用到第七层(应用层)负载均衡的情况下。

7、响应速度均衡(Response Time 探测时间)

负载均衡设备对内部各服务器发出一个探测请求(例如 Ping),然后根据内部中各服务器对探测请求的最快响应时间来决定哪一台服务器来响应客户端的服务请求。此种均衡算法能较好的反映服务器的当前运行状态,但这最快响应时间仅仅指的是负载均衡设备与服务器间的最快响应时间,而不是客户端与服务器间的最快响应时间。

8、DNS 响应均衡(Flash DNS)

在此均衡算法下,分处在不同地理位置的负载均衡设备收到同一个客户端的域名解析请求,并在同一时间内把此域名解析成各自相对应服务器的 IP 地址并返回给客户端,则客户端将以最先收到的域名解析 IP 地址来继续请求服务,而忽略其它的 IP 地址响应。在种均衡策略适合应用在全局负载均衡的情况下,对本地负载均衡是没有意义的。

9、哈希算法(负载均衡系统可靠性)

一致性哈希一致性 Hash,相同参数的请求总是发到同一提供者。当某一台提供者挂时,原本发往该提供者的请求,基于虚拟节点,平摊到其它提供者,不会引起剧烈变动。

10、IP 地址散列( 保证客户端服务器对应关系稳定 )

通过管理发送方 IP 和目的地 IP 地址的散列,将来自同一发送方的分组(或发送至同一目的地的分组)统一转发到相同服务器的算法。当客户端有一系列业务需要处理而必须和一个服务器反复通信时,该算法能够以流(会话)为单位,保证来自相同客户端的通信能够一直在同一服务器中进行处理。

11、URL 散列(保证URL和服务器对应关系稳定)
通过管理客户端请求 URL 信息的散列,将发送至相同 URL 的请求转发至同一服务器的算法。


Question3:介绍一下 LVS ?

Answer3:

LVS 英文全称 Linux Virtual Server,即Linux虚拟服务器,其 IP 负载均衡技术是通过 IPVS 模块(IP Virtual Server,IP虚拟服务模块)来实现的,IPVS 是 LVS 集群系统的核心软件。

IPVS的主要作用:安装在负载调度器 Director Server 上,同时在 Director Server 上虚拟出一个 IP 地址,用户必须通过这个虚拟的 IP 地址访问服务器(注意:这个虚拟 IP 一般称为 LVS 的 VIP,即 Virtual IP)。

工作流程:访问的请求首先经过 VIP 到达负载调度器 Director Server,然后由负载调度器Director Server从 Real Server 列表中选取一个服务节点响应用户的请求(注意:在用户的请求到达负载调度器Director Server后,调度器Director Server如何将请求发送到提供服务的 Real Server 节点,而 Real Server 节点如何返回数据给用户,是 IPVS 实现的重点技术)。

ipvs : ip virtual server,是 Linux 内核的一部分,工作于内核空间,主要用于使用户定义的策略生效。
ipvsadm : 是LVS在应用层的一个管理命令,需要使用yum单独安装,工作于用户空间,主要用于用户定义和管理LVS的配置和集群服务。

谈一谈负载均衡的那些事_第2张图片

对于上图的解释: ipvs 工作于内核空间的 INPUT 链上,当收到用户请求某集群服务时,经过PREROUTING 链(路由前),经检查本机路由表,送往 INPUT 链;在进入 netfilter 的 INPUT 链时,ipvs 强行将请求报文通过ipvsadm 定义的集群服务策略的路径改为 FORWORD 链(路由后),将报文转发至后端真实提供服务的主机Real Server(即图中的RS)。


Question4:介绍一下 LVS 四种模式(NAT、DR、TUN、FULLNAT) ?

Answer4:

1、LVS NAT 模式

谈一谈负载均衡的那些事_第3张图片
①.客户端将请求发往前端的负载均衡器,请求报文源地址是 CIP(客户端 IP),后面统称为 CIP),目标地址为 VIP(负载均衡器前端地址,后面统称为 VIP)。
②.负载均衡器收到报文后,发现请求的是在规则里面存在的地址,那么它将客户端请求报文的目标地址改为了后端服务器的 RIP 地址并将报文根据算法发送出去。
③.报文送到 Real Server 后,由于报文的目标地址是自己,所以会响应该请求,并将响应报文返还给 LVS。
④.然后 lvs 将此报文的源地址修改为本机并发送给客户端。

注意:在 NAT 模式中,Real Server 的网关必须指向 LVS,否则报文无法送达客户端。

LVS NAT 模式特点:
1、NAT 技术将请求的报文和响应的报文都需要通过 LB 进行地址改写,因此网站访问量比较大的时候 LB 负载均衡调度器有比较大的瓶颈,一般要求最多之能 10-20 台节点。
2、只需要在 LB 上配置一个公网 IP 地址就可以了。
3、每台内部的 realserver 服务器的网关地址必须是调度器 LB 的内网地址。
4、NAT 模式支持对 IP 地址和端口进行转换。即用户请求的端口和真实服务器的端口可以不一致。

LVS NAT 模式优点:
集群中的物理服务器可以使用任何支持 TCP/IP 操作系统,只有负载均衡器需要一个合法的 IP 地址。

LVS NAT 模式缺点:
扩展性有限。当服务器节点(普通 PC 服务器)增长过多时,负载均衡器将成为整个系统的瓶颈,因为所有的请求包和应答包的流向都经过负载均衡器。当服务器节点过多时,大量的数据包都交汇在负载均衡器那,速度就会变慢!

2、LVS DR 模式(局域网改写 mac 地址)

谈一谈负载均衡的那些事_第4张图片
①.客户端将请求发往前端的负载均衡器,请求报文源地址是 CIP,目标地址为 VIP。
②.负载均衡器收到报文后,发现请求的是在规则里面存在的地址,那么它将客户端请求报文的源MAC地址改为自己DIP的MAC地址,目标MAC改为了RIP的MAC地址,并将此包发送给RS。
③.RS 发现请求报文中的目的 MAC 是自己,就会将次报文接收下来,处理完请求报文后,将响应报文通过 lO 接口送给 eth0 网卡直接发送给客户端。

注意:需要设置 lO 接口的 VIP 不能响应本地网络内的 arp 请求。

LVS DR 模式特点:
1、通过在调度器 LB 上修改数据包的目的 MAC 地址实现转发。注意源地址仍然是 CIP,目的地址仍然是 VIP 地址。
2、请求的报文经过调度器,而 RS 响应处理后的报文无需经过调度器 LB,因此并发访问量大时使用效率很高(和 NAT 模式比)
3、因为 DR 模式是通过 MAC 地址改写机制实现转发,因此所有 RS 节点和调度器 LB 只能在一个局域网里面
4、RS 主机需要绑定 VIP 地址在 LO 接口(掩码 32 位)上,并且需要配置 ARP 抑制。
5、RS 节点的默认网关不需要配置成 LB,而是直接配置为上级路由的网关,能让 RS 直接出网就可以。
6、由于 DR 模式的调度器仅做 MAC 地址的改写,所以调度器 LB 就不能改写目标端口,那么 RS服务器就得使用和 VIP 相同的端口提供服务。
7、直接对外的业务比如 WEB 等,RS 的 IP 最好是使用公网 IP。对外的服务,比如数据库等最好使用内网 IP。

LVS DR 模式优点

和 TUN(隧道模式)一样,负载均衡器也只是分发请求,应答包通过单独的路由方法返回给客户端。与 VS-TUN 相比,VS-DR 这种实现方式不需要隧道结构,因此可以使用大多数操作系统做为物理服务器。

DR 模式的效率很高,但是配置稍微复杂一点,因此对于访问量不是特别大的公司可以用
haproxy/nginx取代。日1000-2000W PV或者并发请求1万一下都可以考虑haproxy/nginx。

LVS DR 模式缺点
所有 RS 节点和调度器 LB 只能在一个局域网里面。

3、LVS TUN 模式 (IP 封装、 跨网段 )

谈一谈负载均衡的那些事_第5张图片

①.客户端将请求发往前端的负载均衡器,请求报文源地址是 CIP,目标地址为 VIP。
②.负载均衡器收到报文后,发现请求的是在规则里面存在的地址,那么它将在客户端请求报文的首部再封装一层 IP 报文,将源地址改为 DIP,目标地址改为 RIP,并将此包发送给 RS。
③.RS 收到请求报文后,会首先拆开第一层封装,然后发现里面还有一层 IP 首部的目标地址是自己lO 接口上的 VIP,所以会处理次请求报文,并将响应报文通过 lo 接口送给 eth0 网卡直接发送给客户端。

注意:需要设置 lO 接口的 VIP 不能在共网上出现。

LVS TUN模式特点
1.TUNNEL 模式必须在所有的 realserver 机器上面绑定 VIP 的 IP 地址
2.TUNNEL 模式的 vip ------>realserver 的包通信通过 TUNNEL 模式,不管是内网和外网都能通信,所以不需要 lvs vip 跟 realserver 在同一个网段内。
3.TUNNEL 模式 realserver 会把 packet 直接发给 client 不会给 lvs 了。
4.TUNNEL 模式走的隧道模式,所以运维起来比较难,所以一般不用。

LVS TUN模式优点

负载均衡器只负责将请求包分发给后端节点服务器,而 RS 将应答包直接发给用户。所以,减少了负载均衡器的大量数据流动,负载均衡器不再是系统的瓶颈,就能处理很巨大的请求量,这种方式,一台负载均衡器能够为很多 RS 进行分发。而且跑在公网上就能进行不同地域的分发。

LVS TUN模式缺点
隧道模式的 RS 节点需要合法 IP,这种方式需要所有的服务器支持”IP Tunneling”(IP
Encapsulation)协议,服务器可能只局限在部分 Linux 系统上。

4、LVS FULLNAT 模式

无论是 DR 还是 NAT 模式,不可避免的都有一个问题:LVS 和 RS 必须在同一个 VLAN 下,否则LVS 无法作为 RS 的网关。这引发的两个问题是:

1、同一个 VLAN 的限制导致运维不方便,跨 VLAN 的 RS 无法接入。
2、LVS 的水平扩展受到制约。当 RS 水平扩容时,总有一天其上的单点 LVS 会成为瓶颈。

Full-NAT 由此而生,解决的是 LVS 和 RS 跨 VLAN 的问题,而跨 VLAN 问题解决后,LVS 和 RS不再存在 VLAN 上的从属关系,可以做到多个 LVS 对应多个 RS,解决水平扩容的问题。

Full-NAT 相比 NAT 的主要改进是,在 SNAT/DNAT 的基础上,加上另一种转换,转换过程如下:

谈一谈负载均衡的那些事_第6张图片

  1. 在包从 LVS 转到 RS 的过程中,源地址从客户端 IP 被替换成了 LVS 的内网 IP。内网 IP 之间可以通过多个交换机跨 VLAN 通信。目标地址从 VIP 修改为 RS IP.
  2. 当 RS 处理完接受到的包,处理完成后返回时,将目标地址修改为 LVS ip,原地址修改为 RS IP,最终将这个包返回给 LVS 的内网 IP,这一步也不受限于 VLAN。
  3. LVS 收到包后,在 NAT 模式修改源地址的基础上,再把 RS 发来的包中的目标地址从 LVS 内网 IP 改为客户端的 IP,并将原地址修改为 VIP。

Full-NAT 主要的思想是把网关和其下机器的通信,改为了普通的网络通信,从而解决了跨 VLAN的问题。采用这种方式,LVS 和 RS 的部署在 VLAN 上将不再有任何限制,大大提高了运维部署的便利性。

LVS FULLNAT 模式特点

  1. FULL NAT 模式不需要 LBIP 和 realserver ip 在同一个网段;
  2. full nat 因为要更新 sorce ip 所以性能正常比 nat 模式下降 10%

Question5:介绍一下 Keepalive ?

Answer5:

keepalive 起初是为 LVS 设计的,专门用来监控 lvs 各个服务节点的状态,后来加入了vrrp 的功能,因此除了 lvs,也可以作为其他服务(nginx,haproxy)的高可用软件。VRRP 是 virtual router redundancy protocal(虚拟路由器冗余协议)的缩写。VRRP 的出现就是为了解决静态路由出现的单点故障,它能够保证网络可以不间断的稳定的运行。所以 keepalive 一方面具有 LVS cluster node healthcheck 功能,另一方面也具有 LVS director failover。


Question6:介绍一下 Nginx反向代理是如何负载均衡的?

Answer6:

Nginx反向代理下的负载均衡

普通的负载均衡软件,如 LVS,其实现的功能只是对请求数据包的转发、传递,从负载均衡下的节:点服务器来看,接收到的请求还是来自访问负载均衡器的客户端的真实用户;而反向代理就不一样了,反向代理服务器在接收访问用户请求后,会代理用户 重新发起请求代理下的节点服务器,最后把数据返回给客户端用户。在节点服务器看来,访问的节点服务器的客户端用户就是反向代理服务器,而非真实的网站访问用户。

upstream_module 和健康检测

ngx_http_upstream_module 是负载均衡模块,可以实现网站的负载均衡功能即节点的健康检查,upstream 模块允许 Nginx 定义一组或多组节点服务器组,使用时可通过proxy_pass 代理方式把网站的请求发送到事先定义好的对应 Upstream 组 的名字上。

upstream 模块内参数 参数说明
weight 服务器权重
max_fails Nginx 尝试连接后端主机失败的此时,这是值是配合 proxy_next_upstream、fastcgi_next_upstream 和 memcached_next_upstream 这三个参数来使用的。当 Nginx接收后端服务器返回这三个参数定义的状态码时,会将这个请求转发给正常工作的的后端服务器。如 404、503、503,max_files=1。
fail_timeout max_fails 和 fail_timeout 一般会关联使用,如果某台 server 在 fail_timeout 时间内出现了max_fails 次连接失败,那么 Nginx 会认为其已经挂掉,从而在 fail_timeout 时间内不再去请求它,fail_timeout 默认是 10s,max_fails 默认是 1,即默认情况只要是发生错误就认为服务器挂了,如果将 max_fails 设置为 0,则表示取消这项检查。
backup 表示当前 server 是备用服务器,只有其它非 backup 后端服务器都挂掉了或很忙才会分配请求给它
down 标志服务器永远不可用,可配合 ip_hash 使用
upstream lvsServer{
server 191.168.1.11 weight=5 ;
server 191.168.1.22:82;
server example.com:8080 max_fails=2 fail_timeout=10s backup;
#域名的话需要解析的哦,内网记得 hosts
}

proxy_pass 请求转发

proxy_pass 指令属于 ngx_http_proxy_module 模块,此模块可以将请求转发到另一台服务器,在实际的反向代理工作中,会通过 location 功能匹配指定的 URI,然后把接收到服务匹配 URI 的请求通过 proyx_pass 抛给定义好的 upstream 节点池。

location /download/ {
proxy_pass http://download/vedio/;
}
#这是前端代理节点的设置
#交给后端 upstream 为 download 的节点
proxy 模块参数 说明
proxy_next_upstream 什么情况下将请求传递到下一个 upstream
proxy_limite_rate 限制从后端服务器读取响应的速率
proyx_set_header 设置 http 请求 header 传给后端服务器节点,如:可实现让代理后端的服务器节点获取访问客户端的这是 ip
client_body_buffer_size 客户端请求主体缓冲区大小
proxy_connect_timeout 代理与后端节点服务器连接的超时时间
proxy_send_timeout 后端节点数据回传的超时时间
proxy_read_timeout 设置 Nginx 从代理的后端服务器获取信息的时间,表示连接成功建立后,Nginx 等待后端服务器的响应时间
proxy_buffer_size 设置缓冲区大小
proxy_buffers 设置缓冲区的数量和大小
proyx_busy_buffers_size 用于设置系统很忙时可以使用的 proxy_buffers 大小,推荐为proxy_buffers*2
proxy_temp_file_write_size 指定 proxy 缓存临时文件的大小

谈一谈负载均衡的那些事_第7张图片

你可能感兴趣的:(工具和中间件)