大型网站排错

大型网站排错(适用于网站访问不到,应用服务访问不到,设备宕机等等)


硬件级--系统及--应用服务级--网络级


服务硬件问题

1 网线故障--丢包--失联 ==>更换网线 ethool

怎么样判断一个服务器是否丢包??

登录服务器然后ping网关。(1k-5k次)

ping的结果怎么计算出来?

网线线序:

橙白 橙 绿白 蓝 蓝白 绿 棕白 棕 568B 568A 1 3 26对调

2板载网卡故障--->更换主板

万兆网卡--外接的网卡-->安装驱动-->

使用光纤+模块

无光对有光,有光对无光

万兆网卡协商速率是 10000m/s

cpu (机器里有几个cpu)1个cpu 机器宕机 2个cpu 报错

cpu1 error or cpu2 error

cpu的右上角有一个三角形缺口,和服务器的cpu槽位相对应,防止cpu放错方向。

4服务器品牌 DELLR 710 IBM hp INSPUR GD LENOVO [h3c]

广联达

内存报错MEM-(DIMM_A1) ERROR DIMM_B1 ERROR    free -m

内存如果出现故障会导致什么现象:自动重启。无缘无故自动重启-->crontab--->rc.local-->开机启动的脚本-->看看内存

现象2:并且开机后卡在F1界面要按F1才能过去,进入系统。

解决方法 更换内存 或者插拔内存 (同型号同容量)

6电源问题-->1单电 2双电-->冗余工作方式 不同型号及品牌服务器电源冗余工作方式是不一样的

电源1-->工作        电源1-->工作

电源2-->工作        电源2-->备用

1环2顶上

电源分为750w 500w 570w 650w 瓦特 根据旧的型号去换。不能随便换

判断电源故障:

1外观  2管理卡日志psu(电源)3开机自检报错

故障灯--(红) 灭

psu1 error psu2 error

主板故障

现象:开机黑屏  开机死机

更换主板,不影响数据(这些操作由机房值守或者厂家来做)前提:a有值守

b服务器在保修期内(专业点:在保)

RAID卡故障(阵列卡)

现象:无法显示硬盘(所有) 及不能ctrl+r进入raid卡

解决方法更换 raid卡 或者插拔raid卡

硬盘背板故障

现象:硬盘灯全部不亮

解决办法:更换硬盘背板及sas线

如果单个硬盘灯不亮或者为红为硬盘故障

风扇

现象 不转了

管理卡日志:fan1 error fan3 error

解决方法:更换

系统问题--->系统级别参数优化(系统优化)


账号问题(sudo)

升级内核失败(内核调参)

升级内核不要删除其他内核防止内核升级失败,可以用其他内核启动机器

内核调参是系统优化里的东西

网卡配置文件问题

解决方法 查看及修改和重启网络 /etc/sysconfig/-------

ifcfg-eth0----ifcfg-eth3

是否有ip地址

网络层vlan,系统(ip),本地都没有问题,但是就是ping不通服务器。

机器没有路由了,需要添加路由

防火墙过滤规则,不允许你的ip地址ping服务器

1 临时添加路由

添加静态路由:

#route add -net 10.18.45.0 netmask 255.255.255.0 gw 10.18.45.1

删除静态路由

#route del -net 10.18.45.0 netmask 255.255.255.0 gw 10.18.45.1

2 永久添加路由

路由 route -n 添加默认路由或者静态路由(重启就没了)

防火墙(默认关闭)selinux (disabled)

1临时添加及删除及查看本机路由

2永久添加路由

如果做了bond

还要查看bond配置文件及模块加载文件

系统丢失

显示:

DHCP..........................

解决方案:重装系统

多发生于大批量自动安装系统,安装失败后。

文件系统损坏

现象:卡在control +d 界面让你输入root密码

解决方法:输入root密码,如果没有请破解。输入密码后请执行fsck 修复命令

xfs_repire

应用及服务问题


apache nginx mysql zabbix 等等====

云服务器搭建如果遇到问题,查看进程及端口都没问题,但就是得不到想访问的页面,就是云厂商的安全策略问题

所有的云服务器上搭建的业务,必须放行端口,在后台安全策略中 调整。

在云服务器上搭建一些web服务(例如公司网站),

a 正常搭建支持http 协议--->网站安全升级成加密支持https协议--->这个时候你在百度搜索你的公司,

  跳转的页面还是http而没有跳转到https加密页面,是什么原因??

  1 你配错了

  2 要联系百度 你公司的页面对于百度来说就是一个网站快照,百度没有更新百度快照,所以导致用户不跳转

    联系完百度相关人员,问题马上解决。

云服务器在进行任何版本回滚,版本升级,数据库升级迁移等等操作之前,切记:一定要先做快照,在操作!!

1查看进程-->重启服务:服务起不来-->80%

配置文件的问题(set list)-->进程用户-->查看系统日志

查看端口,查看端口是否被占用

如果还起不来,将所有包含服务的进程杀死

nginx~~~~~~~~~~~~~~~~~~~~

modb ng-gfs 3

注意各个应用服务的启动顺序

最简单及最重要及最容易被忽略的问题;

搭建服务的环境问题及环境依赖包版本的问题。php版本 如果过低会直接导致你页面是代码。

在线上修改配置文件以前,一定要备份,包括网卡配置文件。

NFS--->网络共享存储出现问题,如果是挂载页面代码也访问不到。

mysql报错,查看log日志

部署集群服务-->明确环境(操作系统版本,应用服务版本nginx奇数版本和偶数版本有啥区别?)-->

现场环境(物理机--或者云主机)

-->明确集群关系--->画出拓扑图-->

细节:ip地址 主机名称 源码安装(rpm安装)

内网ip地址如果不够用,联系网络工程师去划分新网段,

公网ip地址如果不够用,向公司申请花钱购买。

在公司里面必须修改主机名称!!!!

机器之间的连通性测试 解析地址

每个业务使用多少台机器 做什么架构 要根据你的业务量而定,没有死 的规范

a 企业中搭建负载均衡业务的服务器都是通过光线+模块+万兆网卡 直连核心

b 负载均衡服务器必须有冗余(双数)并且物理位置绝对不可以放到同一组机柜及同一个交换机下。

网络问题


服务器ping不通网关,除了服务器硬件问题,一定是交换机端口vlan或者(端口没有开启)接入到核心的链路问题

网关一般是 xxx.xxx.xxx.1 或者129(极少)

网络硬件问题及网络配置问题

网络配置问题:

1端口是否开启 noshutdown

2是否划分正确的vlan

每一个ip地址段都有自己的vlan id

192.168.31.x---> vlan id 28

10.10.10.x---> vlan id 30

3如配置bond 是否交换机端口也进行绑定配置

从本地ping服务器-->1 ping 通

                -->2 ping不通

A意味着网络ok(交换机)

B服务器系统(包含路由,ip)ok

C尝试ssh登陆-->1 能登陆

            -->2 不能登陆

a1 ssh登录服务器查看服务及端口占用情况

a2 远程管理卡登陆或者机房现场登陆都需要root密码,如果没有需要破解 登陆及其后【查看ssh服务(重启)让我们能够正常登陆机器 】

二 ping不通

现场登陆或管理卡登陆

登陆后

1 ifconfig | grep “inet”查看ip地址

b1 有ip地址-->意味着网络ok-->一定是路由的问题

不是服务器ping不通网关

你在本地就一定能ping通服务器的

剔除掉(防火墙规则)

c2 ping网关不通-->查看网口(网线)连接关系及交换机硬件及交换机端口问题

b2 没有IP地址

--网线是否插了 使用ethool eth0

--查看及修改网卡配置文件并重启网络

服务-->网卡起不来(以外接网卡最多 )

外接网卡查看驱动

管理卡日志是在网页上查看。

云服务器:


所有应用服务都是购买,自带高可用秒级恢复功能。遇到问题直接提工单 找阿里云(其他云供应商去解决)

云服务器可以恢复快照,遇到重要数据丢失,请尽量联系客服恢复快照

偶尔出现云服务器连接不上,请检查本地网络,或者切换本地网络

如果网站访问不到了这时候怎么办??

1 自己访问一下页面,确认不是别人本地网络问题

ping服务器ip,看看是否能登陆,能登陆的话就是应用级别问题

如果不能登陆,查看现场是否有值守人员,是否有远程管理卡

现场如果有人 让他破解root密码看看有没有ip看看有没有自己的账号,然后ping网关如果不通的话vlan是不是画错了

vlan改好之后端口要开启 up状态 然后现场插线 看看交换机有没有yes


若有问题咨询欢迎大家联系我:

邮箱:[email protected]

QQ:1586787265

你可能感兴趣的:(大型网站排错)