今天,一朋友的一台linux服务器上部署了nginx,但是外部(公网)就是不能访问,于是协助其排查。整体思路如下:

1、确认nginx配置是否ok。

2、确认网络是否可达。

3、是否受防火墙安全控制等。

4、排除以上原因之后,远程实际再测试。



那么开始排查:

1、确认nginx配置是否ok。

1.1、检查nginx的配置。

发现有报错

2013/11/13 15:35:09 [emerg] 7739#0: bind() to 0.0.0.0:80 failed (98: Address already in use)

netstat -lanp|grep 80

原来有httpd进程(apache),关闭之

1.2本机是否可以访问(公网ip)

本机curl http://12x.xx.x.xx/ 发现是ok的,日志正常打印(access.log有滚动)


2、确认网络是否可达

telnet 12x.xx.x.xx 80

Trying 12x.xx.x.xx...

Connected to 12x.xx.x.xx.

Escape character is '^]'.

这样就说明网络上可达,并且TCP三次握手可以完成,因为能telnet通,排除了网络不通的情况

3、是否受防火墙安全控制等。

将iptables和selinux关闭

以下4条命令清除iptables的配置

iptables -F

iptables -F -t nat

iptables -X

iptables -X -t nat

setenforce 0 #关闭selinux


4、远程访问再次确认和推论

4.1远程使用浏览器访问,不能访问。。。

4.2服务器日志没有滚动

4.3基于4.1和4.2,结论是请求没有到nginx,但是根据,2、网络是可达的。

似乎矛盾出来了:网络可达,但是80端口的请求就确实没有到nginx。。实际上,网络的可达,或者说telnet能痛,只说明TCP三次握手是ok的,但是流量器不能访问,说明http数据传输受影响。所以,初步判断,是给服务器之前的“某个网络设备”过滤了。

4.4telnet 之后,直接输入GET /,发现页面能传输回来,但是输入了GET / HTTP/1.1就会被卡死,无任何数据反馈。于是就比较怀疑是服务器之前的“某个网络设备”过滤了(专门过滤http数据)。


5、我们修改了nginx的监听的端口为8080,发现访问正常了:无论是浏览器还是telnet之后输入GET / HTTP/1.1都ok


和网络工程师聊了。一般运营商不会过滤80端口的(就算没有icp,一般也不会封)

【结论】:应该还是在应用层上出问题了,服务器之前的“某个网络设备”过滤了


经验教训:

1、排查网站不能访问故障基本思路:内到外一层一层测试,并且要测试网络是否可达,为了便于解决问题,最好将服务器的selinux防火墙关闭。

2、在我大中华地区,icp备案还是得加上。