负载均衡设备维护标准文档

目     录

1.     前言... 4

2.     日常物理检查... 4

2.1.       F5BigIP设备面板结构... 4

2.2.       状态灯判断... 4

3.     日常运行监控... 5

3.1.       检测各台BIG-IP设备的主备工作状态... 5

3.2.       检测F5设备负载状况... 5

3.2.1.    检测BIG-IPCPU和内存使用状况... 5

3.2.2.    检测客户连接数量... 6

3.3.       查看服务器节点状态... 6

3.4.       查看当前建立的所有连接... 7

3.5.       备份日志... 8

3.6.       查看LOG列表... 8

4.     变更操作... 9

4.1.     F5 BIG-IP设备的变更操作... 9

4.2.     服务器的变更维护管理... 9

5.     系统管理... 11

5.1.     用户管理... 11

5.2.     SNMP管理... 11

6.     标准故障诊断流程... 12

7.     系统配置备份及恢复... 14

7.1.       系统配置的备份... 14

7.1.1.    命令行方式(推荐)... 14

7.1.2.    图形界面方式... 16

7.2.       系统配置的恢复... 16

7.2.1.    命令行方式(推荐)... 16

7.2.2.    图形界面方式... 18

8.     附录... 18

8.1.     运维工作基本连接方式介绍... 18

8.2.     常用命令... 20


1.前言

为规范F5负载均衡设备维护工作,提供设备维护标准,提高维护技术水平,特编写了本文档。

在文档中详细说明负载均衡设备日常网管监控办法,日志信息保存,日常统计报表输出,以及日常问题处理办法、标准故障诊断流程、故障现场环境信息保存和各种应急备份方案等内容。

 

2.日常物理检查

根据设备检查需要,可以进行设备物理检查,观察设备面板指示灯,分析设备运行状态。

2.1.      F5BigIP设备面板结构

spacer.gif

10/100 interface        多个10/100 M 自适应的网络接口

Gigabit fiber interface 多个1000M多模光纤接口

Serial console port     一个串口命令行管理端口

Failover port           一个串口冗余状态判断端口

Mgmt interface          一个10/100M 管理端口

2.2.      状态灯判断





spacer.gif



BigIP 在正常工作时可以通过端口状态显示灯判断工作状态:

10/100 M 端口连接状态灯      绿色为100M 连接正常, 橙色为10M 连接正常

10/100 M 端口数据通讯状态灯  停止为无流量, 闪烁为正在进行数据通讯

1000 M 端口连接状态灯        绿色为1000M 连接正常

1000 M 端口数据通讯状态灯    停止为无流量, 闪烁为正在进行数据通讯

可以通过系统面板右侧系统状态灯,检查系统运行状态:

System   正常情况下为绿色, 为系统工作正常

Status   正常情况下的Active 设备为绿色, 而Backup设备为橙色

Activity 在有数据流量通过时闪烁, 无数据流量时定时闪

Alarm    健康检查报警, 系统发现有服务节点处于“不健康”状态时提示报警

3.日常运行监控

3.1.       检测各台BIG-IP设备的主备工作状态

在命令行输入 b failover show

确认SLB51MO3-1工作在active状态,SLB51MO3-2工作在standby状态

这是系统默认状态,如果有变化且非人为设定,则代表系统切换过,需细查原因。

3.2.       检测F5设备负载状况

通常情况下,我们可以通过在命令行输入如下命令,分别获取相关的F5设备信息:

3.2.1.检测BIG-IPCPU和内存使用状况

使用命令行:top

spacer.gif

spacer.gif如果需要将top执行的结果保存在文件里,可执行以下命令

top �Cd 5 |tee/var/tmp/topresults.txt

其中的5表示连续输出5次结果。

3.2.2.检测客户连接数量

检测当前BIG-IP上的连接数量,以及每个对外服务的虚拟服务器的用户连接数量,使用命令行:bigtop

spacer.gifspacer.gif

平时应观察正常工作时,BIG-IP上的用户请求数量,并针对各个时间段作记录,以便于当遭受攻击时可以判定。

3.3.       查看服务器节点状态

通过进入F5管理界面,登陆下面界面,我们可以清楚地看到,所有服务器节点所处的状态:上半部分显示针对节点服务器的地址健康测试结果(ping),下半部分显示各服务器池(pool)中各节点的L4 或者 L7的健康检查结果。

spacer.gifspacer.gifspacer.gif

上图中Node Address 栏表示服务器是否能Ping通,如果服务器能Ping通,则箭头为向上的绿色,如果不能ping通,则箭头为向下的红色。

Virtual Servers and Nodes栏表示使用Monitor Service检测对服务器的检查结果,在本例中如果BIGIP对服务器的两个端口82108001进行TCP端口检查都通的时候,则箭头为向上的绿色。如果某台服务器只要有一个端口TCP检查不通则箭头为向下的红色。

补充说明:如果在上图健康状态监视中,只要有一项不能通过,在F5 BIG-IP的前面板的第四个指示灯 Alarm 会变黄。

3.4.      查看当前建立的所有连接

       通过在Bigpipe 菜单中输入命令“conn”,就可以显示当前所有的客户端与各服务器建立的所有连接:

spacer.gif

3.5.      备份日志

每周应至少备份一次F5BIG-IP上的日志。F5的所有日志保存在FLASH卡上的/var/log目录下,且每天保存为一个文件,最多保存7天(即7个文件),所以如果要备份所有的日志,必须每周至少备份一次/var/log目录。管理员可以通过FTP将日志备份到日志服务器上。

3.6.       查看LOG列表

在左侧点击Log Files 菜单可查看BIGIP当天的LOG记录。

       下图是关于BIG-IP设备本身的LOG记录:

spacer.gif

 

       下图是关于各服务器健康检查的LOG记录:

spacer.gif

4.变更操作

4.1.F5 BIG-IP设备的变更操作

在进行参数变更,修改系统配置时,建议在ACTIVE设备上进行操作。

确认冗余系统的设备是否处于ACTIVE状态,方法为:看下图第二行中显示的本机的状态;或看BIG-IP的前面板的第二个指示灯 Status,绿色代表ACTIVE,***代表Standby

spacer.gifspacer.gif

       ACTIVE设备上做完配置之后,如果确认无误,点击如下“SynchronizeConfiguration”按钮,即可把本机上的新配置文件同步到对端,如果对端设备故障,更换新设备之后,也可以通过这种方法自动地在对端新设备上生成全套配置。

       如果想对BIG-IP ACTIVE设备做停机维护,可以首先点击如下“Force to Standby”按钮,手动把本机设置为Standby 状态,然后再退出系统。

       根据厂家资料,在F5 BIG-IP冗余系统中,ACTIVE设备的会话连接表会实时地复制到Standby设备之上,冗余系统中的任何一台设备宕机,连接会在200ms内切换到另一个正常的设备。

4.2.服务器的变更维护管理

       如果想对服务器做变更维护,由于有BIG-IP设备对服务器池做HA,所以不必非要等到夜间用户连接很少的时候才退出运行,进行变更操作。

F5 BIG-IP管理界面中中打开对应的节点的窗口,在第一行的“Enable Sessions”中的对勾去掉,并Apply保存配置,该接点就处于“Disble”状态,此时,F5停止向该服务器发送新的流量。

spacer.gifspacer.gif

 

spacer.gif当管理员通过下图监视到对应的服务器上现存的连接数逐渐下降为0时,就可以安全地把该服务器退出运行,开始变更、停机等维护工作。spacer.gif

5.系统管理

5.1.用户管理

用户管理,我们可以自行增加、编辑、删除BIG-IP的管理员帐号,并设置其各自的权限:只读/读写,管理CLI/WEB等等。

系统默认管理员为admin,该用户不能删除,只可以修改口令。推荐新建一个Web Read Only权限的用户,作为日常维护管理员使用,可以避免因误操作导致系统故障。

spacer.gif

 

5.2.  SNMP管理

SNMP管理,我们可以设置通过SNMP把相关信息自动发送到网管工作站上, 包括SNMP管理和SNMP Trap的使用, BigIP支持MIB I, MIB II, Private MIB

spacer.gif

6.标准故障诊断流程

1.故障发生时,首先保存现场故障信息,并将信息保存,以备以后检查。

收集系统TechSupport信息,在命令行输入:qkview

2.检测各台BIG-IP设备的主备工作状态

在命令行输入: b failover show

确认两台主备负载均衡器工作状态,确认当前工作在active状态的负载均衡器,另一台应工作在standby状态。

3.检查用户请求数量

根据平时收集的正常状态用户请求数量,分析当前是否遇到攻击。

4.检测各台BIG-IP设备上的日志

请参见3.6章通过图形界面检查当天的BIG-IP日志,其中System记录了系统硬件相关信息,BIG-IP Log则记录了所有BIG-IP配置变更信息,而Monitor Log则记录了对服务器检查的情况。通常,可以通过观察Monitor日志可以确认所有服务器是否发生过异常。如果需要检查前7天内的日志,则必须使用命令行方式,进入/var/log目录检索所查当日的记录。

5.检测F5设备的状况

通常情况下,我们可以通过在命令行输入如下命令,分别获取相关的F5设备信息:

top    检测BIG-IPCPU和内存使用状况

spacer.gif

spacer.gif如果需要将top执行的结果保存在文件里,可执行以下命令

top �Cd 5 |tee /var/tmp/topresults.txt

其中的5表示连续输出5次结果。

bigtop 检测当前BIG-IP上的连接数量,以及每个对外服务的虚拟服务器的用户连接数量

spacer.gifspacer.gif

b pool show 检查当前BIG-IP上的服务器组的连接状况

spacer.gif

b virtual show  检查当前virtual server 虚拟服务器的连接状况

spacer.gif

 

b node monitor show,用于观察Monitor Node点的检查状态

 

7.系统配置备份及恢复

      F5的设备配置可以保存为一个后缀为.ucs的文件,以便今后必要时进行系统恢复。该系统配置ucs文件是一个二进制文件,并不能阅读,如果用户只是想了解F5的配置内容,可以通过阅读/config目录下的bigip_base.confbigip.conf两个文件。其中,bigip_base.conf保存的是有关系统的网络配置(二/三层配置),而bigip.conf保存的是有关系统的业务配置内容(四/七层配置)。因此,为方便今后的维护,可以要求管理员同时备份当前配置的ucs文件和bigip_base.confbigip.conf文件。具体操作步骤如下:(下文以负载均衡器SLB51MO3-1举例,其ip10.16.24.241

7.1.      系统配置的备份

7.1.1.命令行方式(推荐)

首先采用SSH通过网络连接BIG-IP和配置终端(管理员工作站需安装FTP服务器),假设管理员的工作站的ip地址为83.12.147.1。推荐在执行本任务时采用BIG-IPself-ip 172.168.10.252而非share-ip 172.168.10.254进行连接,以避免连接到另一台BIG-IP上。具体操作如下:

红色为管理员输入命令,黑色为系统显示内容

SLB51MO3-1:~#

确认连接到的是SLB51MO3-1这台BIG-IP设备

SLB51MO3-1:~#     b config save SLB51MO3-1_200302201025.ucs

Saving  active configuration...

Creating  UCS for config save request...

备份当前配置到SLB51MO3-1_200302201025.ucs这个文件中(文件名由管理员确定)

文件名推荐采用机器名_日期.ucs的形式

SLB51MO3-1:~#    cd /usr/local/ucs

SLB51MO3-1:/usr/local/ucs#     ls

SLB51MO3-1_200302201025.ucs 

cs_backup.ucs.1       

cs_backup.ucs         

last_boot.ucs        

所有系统配置备份的ucs文件均保存在/usr/local/ucs目录下

 

请再次确认上一步骤的确产生了SLB51MO3-1_200302201025.ucs这个文件

SLB51MO3-1:/usr/local/ucs#     ftp 83.12.147.1

Trying  172.168.10.99.21...

Connected  to 172.168.10.99.

220  raymond Microsoft FTP Service (Version 5.0).

Name  (83.12.147.1:root): ftp

331  Anonymous access allowed, send identity (e-mail name) as password.

Password:

230  Anonymous user logged in.

Remote  system type is Windows_NT.

ftp> bin

200  Type set to I.

ftp> hash

Hash  mark printing on (1024 bytes/hash mark).

ftp> put SLB51MO3-1_200302201025.ucs

local:  SLB51MO3-1_200302201025.ucs remote:  SLB51MO3-1_200302201025.ucs

227  Entering Passive Mode (SLB51MO3-1_200302201025.ucs).

125  Data connection already open; Transfer starting.

##############################################

226  Transfer complete.

274511  bytes sent in 0.0194 seconds (14139118 bytes/s)

ftp>  lcd /config

Local  directory now /config

ftp>  put bigip.conf

ftp>  put bigip_base.conf

ftp>  bye

221 

SLB51MO3-1:/usr/local/ucs#

采用FTP连接到管理员的工作站(本例为83.12.147.1

 

 

 

 

 

 

 

采用二进制传输文件(BIN格式)

 

 

显示传输进程   hash on

 

传送系统配置ucs文件到管理员工作站

(前提是以进入本地的/usr/local/ucs目录,否则的话请先用lcd /usr/local/ucs切换到该目录再传送)

 

 

 

 

 

 

/usr/local/ucs目录切换到/config目录

 

备份bigip.conf文件

备份bigip_base.conf文件

退出ftp进程

7.1.2.图形界面方式

spacer.gifspacer.gif

 

如上图,采用HTTPS方式连接BIG-IP和管理员工作站,在system adminàconfiguration managemetàSaveCurrent Configuration 下输入备份系统配置ucs文件并按保存即可

然后,同上采用FTP方式传送文件到管理员工作站。

7.2.      系统配置的恢复

7.2.1.命令行方式(推荐)

同上,管理员工作站采用网络连接到BIG-IP上,同时管理员工作站必须配置有FTP服务器。具体操作如下:

红色为管理员输入命令,黑色为系统显示内容

SLB51MO3-1:~#

确认连接到的是SLB51MO3-1这台BIG-IP设备

SLB51MO3-1:~#  cd /var

SLB51MO3-1:/var#    cd /tmp

SLB51MO3-1:/var/tmp#       

进入/var/tmp目录以避免直接传送ucs文件到/usr/local/ucs目录覆盖本地的系统ucs文件

SLB51MO3-1:/var/tmp#   ftp  83.12.147.1

Trying   83.12.147.1...

Connected  to 172.168.10.99.

220  raymond Microsoft FTP Service (Version 5.0).

Name  (172.168.10.99:root): ftp

331  Anonymous access allowed, send identity (e-mail name) as password.

Password:

230  Anonymous user logged in.

Remote  system type is Windows_NT.

ftp>  ls

227  Entering Passive Mode (172.168.10.99,4,55).

125  Data connection already open; Transfer starting.

02-19-04  10:24AM               274511  SLB51MO3-1_200302201025.ucs

02-19-04  10:27AM               274482 SLB51MO3-1_200302200930.ucs

226  Transfer complete.

ftp>  bin

200  Type set to I.

ftp>  hash

Hash  mark printing on (1024 bytes/hash mark).

ftp>  get  SLB51MO3-1_200302201025.ucs

local:  SLB51MO3-1_200302201025.ucs remote: SLB51MO3-1_200302201025.ucs

227  Entering Passive Mode (172,168,10,99,4,56).

125  Data connection already open; Transfer starting.

######################################################

226  Transfer complete.

274511  bytes received in 0.058 seconds (4734744 bytes/s)

ftp>  bye

使用FTP连接管理员工作站

 

 

 

 

 

 

 

 

 

查看目录并确认存在备份系统配置ucs文件SLB51MO3-1_200302201025.ucs

 

 

 

采用二进制传输文件(BIN格式)

 

 

显示传输进程   hash on

 

从管理员工作站传送系统配置ucs文件

 

SLB51MO3-1:/var/tmp#  ls

SLB51MO3-1_200302201025.ucs

finish.log

vi.recover/

SLB51MO3-1:/tmp#    b config install  SLB51MO3-1_200302201025.ucs

Installing  full configuration on host SLB51MO3-1.zxme.com

Saving  active configuration...

Creating  UCS for config save request...

Passwords  restored.

Loaded  base configuration from /config/bigip_base.conf.

Loading  base monitors from /etc/base_monitors.ha.

Loading  the default classes from /etc/default_classes.txt.

Loaded  main configuration from /config/bigip.conf.

确认已取到系统配置ucs文件

 

 

 

使用SLB51MO3-1_200302201025.ucs恢复系统配置

 

注意    管理员口令也同时恢复

切记  !!!!

 

7.2.2.图形界面方式

首先,采用同上步骤一样的方式,从管理员工作站上下载以前的系统配置ucs文件,仍然推荐下载到/var/tmp目录下,当然也可以直接下载到/usr/local/ucs目录下。后者在图形界面中可以直接从下拉框中选取下载的系统配置ucs文件,而前者则必须输入全路径/var/tmp/SLB51MO3-1_200302201025.ucs才可以

spacer.gifspacer.gif

 

再次提醒,系统配置ucs文件是包涵系统用户的口令一起备份的,所以当系统恢复时联系统用户的口令一同恢复,很可能与现有用户口令不同,切记!!!如果用户口令有变更,切记在logout当前用户前先使用config工具修改用户口令!

 

8.基本错误处理流程

故障现象通常为Virtual Server无法访问,此时可依次进行以下工作,基本判断故障点,并排除故障,如果无法解决,则进入应急处理流程。

 

1、             通过图形界面登陆BIGIP,观察System-Network Map的状态,是否其中有节点处于不正常状态。如果存在节点旁的指示为向下的红色箭头,则表示BIGIP检测该节点故障。此时应当首先检查直接访问节点服务器是否能正常访问。

2、             通过命令行界面登陆BIGIP,执行以下命令:

b virtual show观察是否有节点故障

bigtop观察各节点当前连接数状态

top观察BIGIP内存和CPU占用状态

pingBIGIP直接相连的各台网络设备(包括服务器),判断是否有网络故障 

9.应急处理

故障现象:

       判断应急处理程序条件:

       从外网无法访问VIP上的所有服务

       从外网无法pingVIPF5 BIGIP VLAN Self IP

       无法Telnet 其中一台BIGIP

      

      

9.1.系统访问异常,但Telnet(ssh)或Console可以连接上F5 Active设备

步骤:

1.如果telnetConsole能连接上F5 Active设备,则依次执行以下命令

df �Ck |tee /var/data/diskusage.txt

top �Cd 5 |tee/var/data/topresult.txt

       bconn |tee /var/data/sessiondump.txt

       bnode monitor show | tee /var/data/nodemonitor.txt

qkview/var/data/qkview.tech.out

等待qkview执行完成后。可以在/var/tmp目录中发现一个.out文件,将该文件拷贝到/var/data目录下。

执行以下命令:

cp /var/tmp/*.out /var/data

然后执行命令

b failover standby。强制F5设备切换到另外一台设备。

根据实际情况,可以将本机关电或者移除其上的所有网线。将设备下线进行分析。

通过consoletelnet 连接备份设备,执行命令:

b failover show,观察本机是否已经切换到active状态。

b conn,观察是否有用户已经连接上系统。

与应用部联系或通过客户端检查应用系统是否已经正常运行。

Active设备下线后,可将/var/data目录下的所有文件ftp到管理机上。作为分析用。

 

9.2.系统访问异常,切Telnet(ssh)和Console均无法连接主设备。

步骤:

       直接将Active设备关电,此时两台F5设备会发生切换,请耐心等待4060SpanningTree 切换时间。

通过consoletelnet 连接备份设备10.16.24.242,执行命令:

b failover show,观察本机是否已经切换到active状态。

b conn,观察是否有用户已经连接上系统。

于应用部联系或通过客户端检查应用系统是否已经正常运行。

 

10.    附录

10.1.  运维工作基本连接方式介绍

在发现系统工作不正常的情况下, 一般建议通过GUIWEB界面进行进一步的故障判断和排除。

基于Web配置BIG-IP 的准备

l 安装Windows操作系统的PC一台

l IE 5或者更高的版本

l 一根网络线, 连接PCBigIP的管理端口(Port 3.1

 

基于Web配置BIG-IP  

1当没有对BIG-IP进行任何配置的时候,BIG-IP会把它的管理端口的IP地址设置为192.168.1.245,当这个地址与其他主机地址有冲突时,BIG-IP会试着把IP地址192.168.245.245分配给管理端口。

矩形标注: https://192.168.1.241/2spacer.gif

 

我们配置客户端主机的IP地址为192.168.1.x,使我们的客户端主机与BIG-IP的管理端口在同一个网段上,由于BIG-IP使用SSL加密的HTTP,所以我们在IE的地址栏内输入:https://192.168.1.241;在目前安装的所有Bigip 设备中的管理地址都依照以下原则:

SLB51WO3-1 192.168.1.241;

SLB51WO3-2 192.168.1.242;

active bigip 192.168.1.241

 

注意,在系统投入运行后可通过BIGIP的可管理端口的SelfIP,在文中,模拟通过internal VLANselfIP来进行管理。具体IP如下:

SLB51WO3-1 10.16.24.241;

SLB51WO3-2 10.16.24.242;

 

2回车后,出现安全警告信息,缺省为No,为了配置BIG-IP选择Yes

spacer.gif

 

3然后系统提示输入基于WEB配置的用户名和密码,

spacer.gif

默认的用户名是admin 密码: admin

 

4单击OK,进入BIG-IPWEB页面,单击超级链接Configure your BIG-IP(R) Controller using the Configure Utility

圆角矩形标注: 单击这里spacer.gif

 

10.2.  常用命令

 

b failover show

检测各台BIG-IP设备的主备工作状态

b failover  standby

将当前主设备强制切换为备份设备,对端设备切换为主设备

b node monitor  show

用于观察Monitor Node点的检查状态

b virtual show

检查当前virtual server 虚拟服务器的连接状况

b pool show

检查当前BIG-IP上的服务器组的连接状况

b interface show

察看系统每个物理端口的统计状态

bigtop

检测当前BIG-IP上的连接数量,以及每个对外服务的虚拟服务器的用户连接数量

conn

Bigpipe 菜单中输入,显示当前所有的客户端与各服务器建立的所有连接

b conn

在命令行中输入,显示当前所有的客户端与各服务器建立的所有连接,该命令可用grep来过滤其他信息,如:b conn  |grep 10.10.10.1 则表示显示所有连接信息中和10.10.10.1相关的地址

qkview

收集系统Tech  Support信息

top

检测BIG-IPCPU和内存使用状况

b config save 文件名

保存当前的配置文件

b config install 文件名

从文件中恢复配置(注意,不同设备的配置文件不能混用)

b config sync

同步两台设备的配置,从当前设备同步到对端设备













 


你可能感兴趣的:(用户,服务器,监控,检测)