云数据库故障排查之偶发fail to connect mysql,刷新界面恢复

描述:

客户端程序报错:PHP Fatal error:  Uncaught exception 'Exception' with message 'Connect failed: Can't connect to MySQL server on '172.16.1.134' (99)' in

排查:

服务端:

1.检查配置文件:/etc/my.cnf | grep connection 发现max_connection为300,当前与mysql实例最大的建立连接为300

2.检查配置文件:/etc/my.cnf | grep timeout 发现connection_timeout为8,当前mysql等待握手结果的时间为8s,如果长于8s,建立请求就会失败。

3.查看mysql的error_log:/data/local/mysql/var/mysql.err 没有任何相关信息

4.看RDS所在VM连接状态:netstat -anp|grep 3306 ,有大量连接处于time_wait,也就是说,根据TCP协议,服务器端主动关闭连接的一方,会处于time_wait。服务端对资源进行回收,而client没有连接回收机制(客户端不在向服务端传输数据,超过一定时间后,就会由服务端发起连接结束)

云数据库故障排查之偶发fail to connect mysql,刷新界面恢复_第1张图片
time_wait连接数

客户端:

1.应用错误日志:应用错误日志:less error.log

[31-Jul-2017 13:36:50 Etc/GMT-8] PHP Fatal error:  Uncaught exception 'Exception' with message 'Connect failed: Can't connect to MySQL server on '172.16.1.134' (99)' in /data/apps/shangzuo/www/include/library/DB.class.php:47

Stack trace:

#0 /data/apps/shangzuo/www/include/library/DB.class.php(23): DB->__construct()

#1 /data/apps/shangzuo/www/include/library/DB.class.php(82): DB::Instance()

#2 /data/apps/shangzuo/www/include/library/DB.class.php(471): DB::EscapeString('df1060b5d6aabaf...')

#3 /data/apps/shangzuo/www/include/library/DB.class.php(151): DB::BuildCondition(Array)

#4 /data/apps/shangzuo/www/include/library/Table.class.php(200): DB::LimitQuery('t_weixin_login_...', Array)

#5 /data/apps/shangzuo/www/boss/logincheck.php(10): Table::Fetch('t_weixin_login_...', 'df1060b5d6aabaf...', 'lgch_uid')

#6 {main}

thrown in /data/apps/shangzuo/www/include/library/DB.class.php on line 47

2.login逻辑检查: less  logincheck.php没有连接回收

if ($check["lgch_returnuid"]) {

if($INI['system']['brandkey'] == 'www'){

$res=array("tag" => "combine","mbuid"=>$check['lgch_returnuid']);

}

$login_waiter = checklogin($check['lgch_returnuid']);

if($login_waiter["tag"] != 'fail'){

$waiter = DB::LimitQuery("t_shop_waiter_info ta inner join t_sys_group_list tb on ta.wait_uid=tb.gpls_tguid inner join t_shop_job_info tc on tb.gpls_gpuid=tc.sjob_gpuid", array(

"condition" => "wait_uid='".$login_waiter["waiter"]['wait_uid']."' and sjob_class=1",

"order" => "order by sjob_type desc",

"one" => true

));

....

}

$res = array("tag"=>'brandchoose','htmlstr'=>$str);

}

}

}

结论

1.用户的php程序,和mysql后端的tcp连接,用户没有正常的释放,就会报“can't connect to mysql server onxxx.xxx”错误

2.由于客户端没有连接回收机制,只能借助于操作系统回收TCP连接,需要增加回收机制

处理结果:

1.客户端:

php与mysql建立完连接后,mysql.close()进行连接回收

2.服务端:

time_wait等待对端确认关闭连接,可在操作系统层面,优化tcp的time_wait,开启重启重用和回收(vim /etc/sysctl.conf 然后执行sysctl -p)

net.ipv4.tcp_syncookies = 1  //开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;

net.ipv4.tcp_tw_reuse = 1    //开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;

net.ipv4.tcp_tw_recycle = 1  //开启TCP连接中TIME-WAIT sockets的快速回收

net.ipv4.tcp_retries2 = 5  //已建立通讯状况﹐需要进行多少次重试。默认值为15,相当于13-30分钟,这个值根据目前的网络设置,适当改小。服务端主动关闭的等待时长

net.ipv4.tcp_fin_timeout = 10 //设置链接超时时间,默认时60s,降低Time_wait占用时长

net.ipv4.tcp_syn_retries = 1  //新建连接,内核要发送多少个 SYN 连接请求才决定放弃

3.Mysql配置

修改connection_timeout时长,将timeout增大,提升三次握手因网络原因导致的建立连接异常。

规避方法:

1.养成良好的编程习惯,建立连接使用完成后,要及时回收

2.服务端要开启自动回收机制,避免过多的time_wait连接

你可能感兴趣的:(云数据库故障排查之偶发fail to connect mysql,刷新界面恢复)