目 录
1. 前言... 4
2. 日常物理检查... 4
2.1. F5BigIP设备面板结构... 4
2.2. 状态灯判断... 4
3. 日常运行监控... 5
3.1. 检测各台BIG-IP设备的主备工作状态... 5
3.2. 检测F5设备负载状况... 5
3.2.1. 检测BIG-IP的CPU和内存使用状况... 5
3.2.2. 检测客户连接数量... 6
3.3. 查看服务器节点状态... 6
3.4. 查看当前建立的所有连接... 7
3.5. 备份日志... 8
3.6. 查看LOG列表... 8
4. 变更操作... 9
4.1. F5 BIG-IP设备的变更操作... 9
4.2. 服务器的变更维护管理... 9
5. 系统管理... 11
5.1. 用户管理... 11
5.2. SNMP管理... 11
6. 标准故障诊断流程... 12
7. 系统配置备份及恢复... 14
7.1. 系统配置的备份... 14
7.1.1. 命令行方式(推荐)... 14
7.1.2. 图形界面方式... 16
7.2. 系统配置的恢复... 16
7.2.1. 命令行方式(推荐)... 16
7.2.2. 图形界面方式... 18
8. 附录... 18
8.1. 运维工作基本连接方式介绍... 18
8.2. 常用命令... 20
为规范F5负载均衡设备维护工作,提供设备维护标准,提高维护技术水平,特编写了本文档。
在文档中详细说明负载均衡设备日常网管监控办法,日志信息保存,日常统计报表输出,以及日常问题处理办法、标准故障诊断流程、故障现场环境信息保存和各种应急备份方案等内容。
根据设备检查需要,可以进行设备物理检查,观察设备面板指示灯,分析设备运行状态。
10/100 interface 多个10/100 M 自适应的网络接口
Gigabit fiber interface 多个1000M多模光纤接口
Serial console port 一个串口命令行管理端口
Failover port 一个串口冗余状态判断端口
Mgmt interface 一个10/100M 管理端口
BigIP 在正常工作时可以通过端口状态显示灯判断工作状态:
10/100 M 端口连接状态灯 绿色为100M 连接正常, 橙色为10M 连接正常
10/100 M 端口数据通讯状态灯 停止为无流量, 闪烁为正在进行数据通讯
1000 M 端口连接状态灯 绿色为1000M 连接正常
1000 M 端口数据通讯状态灯 停止为无流量, 闪烁为正在进行数据通讯
可以通过系统面板右侧系统状态灯,检查系统运行状态:
System 正常情况下为绿色, 为系统工作正常
Status 正常情况下的Active 设备为绿色, 而Backup设备为橙色
Activity 在有数据流量通过时闪烁, 无数据流量时定时闪
Alarm 健康检查报警, 系统发现有服务节点处于“不健康”状态时提示报警
在命令行输入 b failover show
确认SLB51MO3-1工作在active状态,SLB51MO3-2工作在standby状态
这是系统默认状态,如果有变化且非人为设定,则代表系统切换过,需细查原因。
通常情况下,我们可以通过在命令行输入如下命令,分别获取相关的F5设备信息:
使用命令行:top
如果需要将top执行的结果保存在文件里,可执行以下命令
top �Cd 5 |tee/var/tmp/topresults.txt
其中的5表示连续输出5次结果。
检测当前BIG-IP上的连接数量,以及每个对外服务的虚拟服务器的用户连接数量,使用命令行:bigtop
平时应观察正常工作时,BIG-IP上的用户请求数量,并针对各个时间段作记录,以便于当遭受攻击时可以判定。
通过进入F5管理界面,登陆下面界面,我们可以清楚地看到,所有服务器节点所处的状态:上半部分显示针对节点服务器的地址健康测试结果(ping),下半部分显示各服务器池(pool)中各节点的L4 或者 L7的健康检查结果。
上图中Node Address 栏表示服务器是否能Ping通,如果服务器能Ping通,则箭头为向上的绿色,如果不能ping通,则箭头为向下的红色。
Virtual Servers and Nodes栏表示使用Monitor Service检测对服务器的检查结果,在本例中如果BIGIP对服务器的两个端口8210和8001进行TCP端口检查都通的时候,则箭头为向上的绿色。如果某台服务器只要有一个端口TCP检查不通则箭头为向下的红色。
补充说明:如果在上图健康状态监视中,只要有一项不能通过,在F5 BIG-IP的前面板的第四个指示灯 Alarm 会变黄。
通过在Bigpipe 菜单中输入命令“conn”,就可以显示当前所有的客户端与各服务器建立的所有连接:
每周应至少备份一次F5的BIG-IP上的日志。F5的所有日志保存在FLASH卡上的/var/log目录下,且每天保存为一个文件,最多保存7天(即7个文件),所以如果要备份所有的日志,必须每周至少备份一次/var/log目录。管理员可以通过FTP将日志备份到日志服务器上。
在左侧点击Log Files 菜单可查看BIGIP当天的LOG记录。
下图是关于BIG-IP设备本身的LOG记录:
下图是关于各服务器健康检查的LOG记录:
在进行参数变更,修改系统配置时,建议在ACTIVE设备上进行操作。
确认冗余系统的设备是否处于ACTIVE状态,方法为:看下图第二行中显示的本机的状态;或看BIG-IP的前面板的第二个指示灯 Status,绿色代表ACTIVE,***代表Standby。
在ACTIVE设备上做完配置之后,如果确认无误,点击如下“SynchronizeConfiguration”按钮,即可把本机上的新配置文件同步到对端,如果对端设备故障,更换新设备之后,也可以通过这种方法自动地在对端新设备上生成全套配置。
如果想对BIG-IP ACTIVE设备做停机维护,可以首先点击如下“Force to Standby”按钮,手动把本机设置为Standby 状态,然后再退出系统。
根据厂家资料,在F5 BIG-IP冗余系统中,ACTIVE设备的会话连接表会实时地复制到Standby设备之上,冗余系统中的任何一台设备宕机,连接会在200ms内切换到另一个正常的设备。
如果想对服务器做变更维护,由于有BIG-IP设备对服务器池做HA,所以不必非要等到夜间用户连接很少的时候才退出运行,进行变更操作。
在F5 BIG-IP管理界面中中打开对应的节点的窗口,在第一行的“Enable Sessions”中的对勾去掉,并Apply保存配置,该接点就处于“Disble”状态,此时,F5停止向该服务器发送新的流量。
当管理员通过下图监视到对应的服务器上现存的连接数逐渐下降为0时,就可以安全地把该服务器退出运行,开始变更、停机等维护工作。
用户管理,我们可以自行增加、编辑、删除BIG-IP的管理员帐号,并设置其各自的权限:只读/读写,管理CLI/WEB等等。
系统默认管理员为admin,该用户不能删除,只可以修改口令。推荐新建一个Web Read Only权限的用户,作为日常维护管理员使用,可以避免因误操作导致系统故障。
SNMP管理,我们可以设置通过SNMP把相关信息自动发送到网管工作站上, 包括SNMP管理和SNMP Trap的使用, BigIP支持MIB I, MIB II, Private MIB 。
1.故障发生时,首先保存现场故障信息,并将信息保存,以备以后检查。
收集系统TechSupport信息,在命令行输入:qkview
2.检测各台BIG-IP设备的主备工作状态
在命令行输入: b failover show
确认两台主备负载均衡器工作状态,确认当前工作在active状态的负载均衡器,另一台应工作在standby状态。
3.检查用户请求数量
根据平时收集的正常状态用户请求数量,分析当前是否遇到攻击。
4.检测各台BIG-IP设备上的日志
请参见3.6章通过图形界面检查当天的BIG-IP日志,其中System记录了系统硬件相关信息,BIG-IP Log则记录了所有BIG-IP配置变更信息,而Monitor Log则记录了对服务器检查的情况。通常,可以通过观察Monitor日志可以确认所有服务器是否发生过异常。如果需要检查前7天内的日志,则必须使用命令行方式,进入/var/log目录检索所查当日的记录。
5.检测F5设备的状况
通常情况下,我们可以通过在命令行输入如下命令,分别获取相关的F5设备信息:
top 检测BIG-IP的CPU和内存使用状况
如果需要将top执行的结果保存在文件里,可执行以下命令
top �Cd 5 |tee /var/tmp/topresults.txt
其中的5表示连续输出5次结果。
bigtop 检测当前BIG-IP上的连接数量,以及每个对外服务的虚拟服务器的用户连接数量
b pool show 检查当前BIG-IP上的服务器组的连接状况
b virtual show 检查当前virtual server 虚拟服务器的连接状况
b node monitor show,用于观察Monitor 对Node点的检查状态
F5的设备配置可以保存为一个后缀为.ucs的文件,以便今后必要时进行系统恢复。该系统配置ucs文件是一个二进制文件,并不能阅读,如果用户只是想了解F5的配置内容,可以通过阅读/config目录下的bigip_base.conf和bigip.conf两个文件。其中,bigip_base.conf保存的是有关系统的网络配置(二/三层配置),而bigip.conf保存的是有关系统的业务配置内容(四/七层配置)。因此,为方便今后的维护,可以要求管理员同时备份当前配置的ucs文件和bigip_base.conf、bigip.conf文件。具体操作步骤如下:(下文以负载均衡器SLB51MO3-1举例,其ip为10.16.24.241)
首先采用SSH通过网络连接BIG-IP和配置终端(管理员工作站需安装FTP服务器),假设管理员的工作站的ip地址为83.12.147.1。推荐在执行本任务时采用BIG-IP的self-ip 172.168.10.252而非share-ip 172.168.10.254进行连接,以避免连接到另一台BIG-IP上。具体操作如下:
红色为管理员输入命令,黑色为系统显示内容 |
|
SLB51MO3-1:~# |
确认连接到的是SLB51MO3-1这台BIG-IP设备 |
SLB51MO3-1:~# b config save SLB51MO3-1_200302201025.ucs Saving active configuration... Creating UCS for config save request... |
备份当前配置到SLB51MO3-1_200302201025.ucs这个文件中(文件名由管理员确定) 文件名推荐采用机器名_日期.ucs的形式 |
SLB51MO3-1:~# cd /usr/local/ucs SLB51MO3-1:/usr/local/ucs# ls SLB51MO3-1_200302201025.ucs cs_backup.ucs.1 cs_backup.ucs last_boot.ucs |
所有系统配置备份的ucs文件均保存在/usr/local/ucs目录下
请再次确认上一步骤的确产生了SLB51MO3-1_200302201025.ucs这个文件 |
SLB51MO3-1:/usr/local/ucs# ftp 83.12.147.1 Trying 172.168.10.99.21... Connected to 172.168.10.99. 220 raymond Microsoft FTP Service (Version 5.0). Name (83.12.147.1:root): ftp 331 Anonymous access allowed, send identity (e-mail name) as password. Password: 230 Anonymous user logged in. Remote system type is Windows_NT. ftp> bin 200 Type set to I. ftp> hash Hash mark printing on (1024 bytes/hash mark). ftp> put SLB51MO3-1_200302201025.ucs local: SLB51MO3-1_200302201025.ucs remote: SLB51MO3-1_200302201025.ucs 227 Entering Passive Mode (SLB51MO3-1_200302201025.ucs). 125 Data connection already open; Transfer starting. ############################################## 226 Transfer complete. 274511 bytes sent in 0.0194 seconds (14139118 bytes/s) ftp> lcd /config Local directory now /config ftp> put bigip.conf ftp> put bigip_base.conf ftp> bye 221 SLB51MO3-1:/usr/local/ucs# |
采用FTP连接到管理员的工作站(本例为83.12.147.1)
采用二进制传输文件(BIN格式)
显示传输进程 (hash 为on)
传送系统配置ucs文件到管理员工作站 (前提是以进入本地的/usr/local/ucs目录,否则的话请先用lcd /usr/local/ucs切换到该目录再传送)
从/usr/local/ucs目录切换到/config目录
备份bigip.conf文件 备份bigip_base.conf文件 退出ftp进程 |
如上图,采用HTTPS方式连接BIG-IP和管理员工作站,在system adminàconfiguration managemetàSaveCurrent Configuration 下输入备份系统配置ucs文件并按保存即可
然后,同上采用FTP方式传送文件到管理员工作站。
同上,管理员工作站采用网络连接到BIG-IP上,同时管理员工作站必须配置有FTP服务器。具体操作如下:
红色为管理员输入命令,黑色为系统显示内容 |
|
SLB51MO3-1:~# |
确认连接到的是SLB51MO3-1这台BIG-IP设备 |
SLB51MO3-1:~# cd /var SLB51MO3-1:/var# cd /tmp SLB51MO3-1:/var/tmp# |
进入/var/tmp目录以避免直接传送ucs文件到/usr/local/ucs目录覆盖本地的系统ucs文件 |
SLB51MO3-1:/var/tmp# ftp 83.12.147.1 Trying 83.12.147.1... Connected to 172.168.10.99. 220 raymond Microsoft FTP Service (Version 5.0). Name (172.168.10.99:root): ftp 331 Anonymous access allowed, send identity (e-mail name) as password. Password: 230 Anonymous user logged in. Remote system type is Windows_NT. ftp> ls 227 Entering Passive Mode (172.168.10.99,4,55). 125 Data connection already open; Transfer starting. 02-19-04 10:24AM 274511 SLB51MO3-1_200302201025.ucs 02-19-04 10:27AM 274482 SLB51MO3-1_200302200930.ucs 226 Transfer complete. ftp> bin 200 Type set to I. ftp> hash Hash mark printing on (1024 bytes/hash mark). ftp> get SLB51MO3-1_200302201025.ucs local: SLB51MO3-1_200302201025.ucs remote: SLB51MO3-1_200302201025.ucs 227 Entering Passive Mode (172,168,10,99,4,56). 125 Data connection already open; Transfer starting. ###################################################### 226 Transfer complete. 274511 bytes received in 0.058 seconds (4734744 bytes/s) ftp> bye |
使用FTP连接管理员工作站
查看目录并确认存在备份系统配置ucs文件SLB51MO3-1_200302201025.ucs
采用二进制传输文件(BIN格式)
显示传输进程 (hash 为on)
从管理员工作站传送系统配置ucs文件
|
SLB51MO3-1:/var/tmp# ls SLB51MO3-1_200302201025.ucs finish.log vi.recover/ SLB51MO3-1:/tmp# b config install SLB51MO3-1_200302201025.ucs Installing full configuration on host SLB51MO3-1.zxme.com Saving active configuration... Creating UCS for config save request... Passwords restored. Loaded base configuration from /config/bigip_base.conf. Loading base monitors from /etc/base_monitors.ha. Loading the default classes from /etc/default_classes.txt. Loaded main configuration from /config/bigip.conf. |
确认已取到系统配置ucs文件
使用SLB51MO3-1_200302201025.ucs恢复系统配置
注意 管理员口令也同时恢复 切记 !!!! |
首先,采用同上步骤一样的方式,从管理员工作站上下载以前的系统配置ucs文件,仍然推荐下载到/var/tmp目录下,当然也可以直接下载到/usr/local/ucs目录下。后者在图形界面中可以直接从下拉框中选取下载的系统配置ucs文件,而前者则必须输入全路径/var/tmp/SLB51MO3-1_200302201025.ucs才可以
再次提醒,系统配置ucs文件是包涵系统用户的口令一起备份的,所以当系统恢复时联系统用户的口令一同恢复,很可能与现有用户口令不同,切记!!!如果用户口令有变更,切记在logout当前用户前先使用config工具修改用户口令!
故障现象通常为Virtual Server无法访问,此时可依次进行以下工作,基本判断故障点,并排除故障,如果无法解决,则进入应急处理流程。
1、 通过图形界面登陆BIGIP,观察System-〉Network Map的状态,是否其中有节点处于不正常状态。如果存在节点旁的指示为向下的红色箭头,则表示BIGIP检测该节点故障。此时应当首先检查直接访问节点服务器是否能正常访问。
2、 通过命令行界面登陆BIGIP,执行以下命令:
b virtual show观察是否有节点故障
bigtop观察各节点当前连接数状态
top观察BIGIP内存和CPU占用状态
ping和BIGIP直接相连的各台网络设备(包括服务器),判断是否有网络故障
故障现象:
判断应急处理程序条件:
从外网无法访问VIP上的所有服务
从外网无法ping通VIP或F5 BIGIP VLAN Self IP
无法Telnet 其中一台BIGIP
步骤:
1.如果telnet或Console能连接上F5 Active设备,则依次执行以下命令
df �Ck |tee /var/data/diskusage.txt
top �Cd 5 |tee/var/data/topresult.txt
bconn |tee /var/data/sessiondump.txt
bnode monitor show | tee /var/data/nodemonitor.txt
qkview/var/data/qkview.tech.out
等待qkview执行完成后。可以在/var/tmp目录中发现一个.out文件,将该文件拷贝到/var/data目录下。
执行以下命令:
cp /var/tmp/*.out /var/data
然后执行命令
b failover standby。强制F5设备切换到另外一台设备。
根据实际情况,可以将本机关电或者移除其上的所有网线。将设备下线进行分析。
通过console或telnet 连接备份设备,执行命令:
b failover show,观察本机是否已经切换到active状态。
b conn,观察是否有用户已经连接上系统。
与应用部联系或通过客户端检查应用系统是否已经正常运行。
Active设备下线后,可将/var/data目录下的所有文件ftp到管理机上。作为分析用。
步骤:
直接将Active设备关电,此时两台F5设备会发生切换,请耐心等待40-60秒SpanningTree 切换时间。
通过console或telnet 连接备份设备10.16.24.242,执行命令:
b failover show,观察本机是否已经切换到active状态。
b conn,观察是否有用户已经连接上系统。
于应用部联系或通过客户端检查应用系统是否已经正常运行。
在发现系统工作不正常的情况下, 一般建议通过GUI的WEB界面进行进一步的故障判断和排除。
基于Web配置BIG-IP 的准备
l 安装Windows操作系统的PC一台
l IE 5或者更高的版本
l 一根网络线, 连接PC和BigIP的管理端口(Port 3.1)
基于Web配置BIG-IP
1.当没有对BIG-IP进行任何配置的时候,BIG-IP会把它的管理端口的IP地址设置为192.168.1.245,当这个地址与其他主机地址有冲突时,BIG-IP会试着把IP地址192.168.245.245分配给管理端口。
我们配置客户端主机的IP地址为192.168.1.x,使我们的客户端主机与BIG-IP的管理端口在同一个网段上,由于BIG-IP使用SSL加密的HTTP,所以我们在IE的地址栏内输入:https://192.168.1.241;在目前安装的所有Bigip 设备中的管理地址都依照以下原则:
SLB51WO3-1 192.168.1.241;
SLB51WO3-2 192.168.1.242;
active bigip 192.168.1.241
注意,在系统投入运行后可通过BIGIP的可管理端口的SelfIP,在文中,模拟通过internal VLAN的selfIP来进行管理。具体IP如下:
SLB51WO3-1 10.16.24.241;
SLB51WO3-2 10.16.24.242;
2.回车后,出现安全警告信息,缺省为No,为了配置BIG-IP选择Yes
3.然后系统提示输入基于WEB配置的用户名和密码,
默认的用户名是admin 密码: admin
4.单击OK,进入BIG-IP的WEB页面,单击超级链接Configure your BIG-IP(R) Controller using the Configure Utility
b failover show |
检测各台BIG-IP设备的主备工作状态 |
b failover standby |
将当前主设备强制切换为备份设备,对端设备切换为主设备 |
b node monitor show |
用于观察Monitor 对Node点的检查状态 |
b virtual show |
检查当前virtual server 虚拟服务器的连接状况 |
b pool show |
检查当前BIG-IP上的服务器组的连接状况 |
b interface show |
察看系统每个物理端口的统计状态 |
bigtop |
检测当前BIG-IP上的连接数量,以及每个对外服务的虚拟服务器的用户连接数量 |
conn |
在Bigpipe 菜单中输入,显示当前所有的客户端与各服务器建立的所有连接 |
b conn |
在命令行中输入,显示当前所有的客户端与各服务器建立的所有连接,该命令可用grep来过滤其他信息,如:b conn |grep 10.10.10.1 则表示显示所有连接信息中和10.10.10.1相关的地址 |
qkview |
收集系统Tech Support信息 |
top |
检测BIG-IP的CPU和内存使用状况 |
b config save 文件名 |
保存当前的配置文件 |
b config install 文件名 |
从文件中恢复配置(注意,不同设备的配置文件不能混用) |
b config sync |
同步两台设备的配置,从当前设备同步到对端设备 |