前一段时间在负责实施一个项目,利用nginx的七层负载均衡的良好性能做调度器,后端两台PHP应用服务器,实现静动态分离处理,在整个系统环境全部部署完后,把应用程序放上去测试时,发现一个问题,现把问题和解决办法写出来,与大家一起分享和讨论。

 
一、系统环境:
1、 nginx负载均衡/反向代理服务器(1台)
   环境: CentOS 5.5 nginx-0.7.65
   IP192.168.0.10
 
2、后端 PHP应用服务器(2台)
   环境: CentOS 5.5 Apache + PHP
   Webserver1 IP192.168.0.20
   Webserver1 IP192.168.0.21
 
二、安装配置
1、安装 nginx负载均衡/反向代理服务器
   安装过程就不详说了,可以参考我另一篇文章《 nginx+tomcat负载均衡集群安装配置》,nginx负载均衡/反向代理配置如下:
upstream phpserver {
   server 192.168.0.20:80 weight=5;
   server 192.168.0.21:80 weight=5;
}
server {
   listen 80;
   server_name localhost;
   root /webroot;
   index index.php index.html index.htm;
      
   location ~ .*\.(php|php5)?$ {
      proxy_pass http://phpserver;
      include proxy.conf;
    }
 
   location ~ /\..+ {
      deny all;
  }
   access_log /var/log/nginx/access.log;
}
 
2、后端 PHP应用服务器的详细安装配置迟些再写出来;
 
三、测试发现的问题及解决办法
1、当后端两台 PHP应用服务器都正常时,访问速度非常快,查看日志,原来一个请求,是后端两台服务器同时响应的;
 
2、为了模仿故障测试,停掉一台 PHP应用服务器,这时再访问,请求打开一页面时,发现有一半响应比较快,另一半响应很慢,最后页面是可以打开,但速度不理想,很慢,查看error日志,发现nginx还是把请求的一半发往已停掉的那台服务器,难怪会这么慢;但当很快(10秒内)再打开一个请求页面时,速度又非常快了,查看日志,发现nginx不会把请求的一半发往已停掉的那台服务器;过一会再发起一个请求时,又出现有一半响应比较快另一半响应很慢的现象了,查看日志,nginx又把请求的一半发往已停掉的那台服务器;
 
3、到这里,我明白了 nginx检查后端应用服务器的健康时是有一个时间间隔的,应该怎样处理这个问题呢,当后端有一台服务器down机时,用户访问感觉不出有慢的现象?原来在nginx负载均衡配置里加上下面两个参数时可以有效的解决这个问题:
 
upstream phpserver {
   server 192.168.0.20:80 weight=5 max_fails=2 fail_timeout=600s;
   server 192.168.0.21:80 weight=5 max_fails=2 fail_timeout=600s;
}
 
3.1) max_fails = NUMBER ---- 在一定时间内(这个时间在fail_timeout参数中设置)检查这个服务器是否可用时产生的最多失败请求数,默认为1,将其设置为0可以关闭检查,这些错误在proxy_next_upstream或fastcgi_next_upstream(404错误不会使max_fails增加)中定义;
 
3.2) fail_timeout = TIME ---- 在这个时间内产生了max_fails所设置大小的失败尝试连接请求后这个服务器可能不可用,同样它指定了服务器不可用的时间(在下一次尝试连接请求发起之前),默认为10秒,fail_timeout与前端响应时间没有直接关系,不过可以使用proxy_connect_timeout和 proxy_read_timeout来控制。
 
我设置当有 2个请求失败,就表示后端的服务器不可用,在以后的600S时间内nginx不会再把请求发往已检查出标记为不可用的服务器,再次测试时,把后端一台PHP应用服务务器停掉,只是有一个请求打开页面时出现上面的现象,以后10分钟内都不会出现了,请求页面打开速度正常,fail_timeout的值可以根据你的实际情况而定。