作者:田逸(vx:formyz)
两节点物理服务器,外挂虚拟化后的共享存储(两台存储设备),存储通过多路径与物理服务器直接连接。
网络划分为三个:数据网络、心跳网络及管理网络(远程控制卡)。
工具组件包括:rhel 7系统,pcsd工具包(包括corosync等),oracle数据库。
高可用HA资源包括:虚拟网络地址(vip)、oracle监听器、逻辑卷资源(LVM)、文件系统(filesystem)、oracle数据库实例。
硬件上架部署系统存储准备安装pacemaker 安装oracle数据库配置监控器配置oracle命名服务配置pcs高可用创建数据库实例模拟故障验收
本机硬盘到位,线缆连接到位,包括网线、共享存储连接卡及连接线,心跳网络连接到位,管理网络连接到位。
安装介质到位:包括redhat 系统盘或者iso文件,oracle安装介质,授权许可。
安装所需的软件源,最好是能联网,安装好pcs及oracle以后,再接入正式生成网络。如条件不具备,则用iso挂接本地,做yum源。
设置好服务器的远程控制卡网络。
按要求分区并分配容量。
配置好网络。本案分两个网络:数据网络及心跳网络,并且需要两两绑定,用工具nmtui进行操作,不会犯输入上的低级错误。
关闭防火墙systemctl disable firewalld && systemctl stop firewalld
关闭selinux
修改文件/etc/hosts,映射主机别名
安装iscsi连接器
识别共享设备块
两台设备执行:
(1) 创建物理卷pvcreate /dev/sdc
(2) 创建物理卷组 vgcreate vgdb /dev/sdc
任意设备执行(只在一个节点执行一次):
(1) 创建逻辑卷lvcreate -n dblv -l 100%VG vgdb
(2) 创建文件系统 mkfs.xfs /dev/mapper/vgdb-dblv
(3) 挂接文件系统 mount /dev/mapper/vgdb-dblv /oradata/
(4) 另一设备检验逻辑卷 lvscan
(5) 两节点修改lvm.conf,把系统的卷排除在外。
(6) 两节点执行 dracut -H -f /boot/initramfs-$(uname -r).img $(uname -r)
准备yum源或者服务器连接到互联网。
执行安装 yum install pcs fence-agents-all。
配置pcs服务开机自启动 systemctl enable pcsd.
准备好安装介质,并把其复制到服务器的相关目录,解包后待用;
准备环境变量等所需配置的脚本,并给予执行权限;
执行该脚本,校验之;
安装并启用vnc服务;
Vnc客户端连接到系统;
把oracle 安装目录拷贝到/home/oracle并执行chown –R oracle:oinstall /home/oracle
执行 xhost + 授权;
-------------------以上是root用户----------------------------
切换用户到oracle:su – oracle
设置环境变量display: export DISPLAY=:1(这个值一定要与vncserver启动的输出值相匹配);
进入安装软件目录 cd database,执行脚本./runInstaller ,调出图形界面后,照提示进行下一步,直到安装完成。
(1) 两台设备都执行netca 创建监听器
(2) 修改两台设备的监听器文件/u01/app/oracle/product/12.2.0/network/admin/listener.ora,使HOST的值为vip。
(3) 暂时不要启动监听器,因为vip没有被自动设置到系统。如果需要验证,修改HOST的值为本机地址或者主机别名。
(1) 两台服务器继续执行指令 netca ,鼠标选取第三个单选项—本地网络服务命名。
(2) 确保两台设备的命名地址为vip。
启动pcs服务。执行命令 systemctl start pcsd (前边配置了开启启动,因此重启系统就不需要再执行此命令;另外corosync服务也不需要手动去启动,pcs会自动处理)。
设置pcs用户hacluster密码。Passwd hacluster (hacluster账号是安装pacemaker时自动生成的,可以把两台服务器的hacluster账号设置成同样的密码,也可以不一样)。
---------------------------以上操作要在两台物理机上分别进行--------------
验证用户。在任一服务器执行 pcs cluster auth ora101 ora102 按提示输入上述步骤设定的密码,完成验证。
浏览器访问任一服务器的地址,pcs的端口号为:2224,输入用户名hackuster及密码。
(1) 创建集群,填写相应的信息。
等待几秒钟,创建好集群。
鼠标点链接“my-cls01”,查看更多的信息。
鼠标选点链接“ora102”,也可以看到其上运行的服务(pacemaker等),这个时候,我们可以返回到系统命令行,查看corosync服务是否启动,配置文件是否自动生成。没创建集群之前,corosync配置文件不存在的,只有个例子文件corosync.conf.example。
(2) 按如下顺序添加资源及组
LSNRCTL for Linux: Version 12.2.0.1.0 - Production on 29-MAY-2020 07:19:12
Copyright © 1991, 2016, Oracle. All rights reserved.
Starting /u01/app/oracle/product/12.2.0/bin/tnslsnr: please wait…
TNSLSNR for Linux: Version 12.2.0.1.0 - Production
System parameter file is /u01/app/oracle/product/12.2.0/network/admin/listener.ora
Log messages written to /u01/app/oracle/diag/tnslsnr/ora101/listener/alert/log.xml
Listening on: (DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=172.16.35.66)(PORT=1521)))
Listening on: (DESCRIPTION=(ADDRESS=(PROTOCOL=ipc)(KEY=EXTPROC1521)))
Alias LISTENER
Version TNSLSNR for Linux: Version 12.2.0.1.0 - Production
Start Date 29-MAY-2020 07:19:12
Uptime 0 days 0 hr. 0 min. 0 sec
Trace Level off
Security ON: Local OS Authentication
SNMP OFF
Listener Parameter File /u01/app/oracle/product/12.2.0/network/admin/listener.ora
Listener Log File /u01/app/oracle/diag/tnslsnr/ora101/listener/alert/log.xml
Listening Endpoints Summary…
(DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=172.16.35.66)(PORT=1521)))
(DESCRIPTION=(ADDRESS=(PROTOCOL=ipc)(KEY=EXTPROC1521)))
The listener supports no services
The command completed successfully
[oracle@ora101 ~]$ lsnrctl status
LSNRCTL for Linux: Version 12.2.0.1.0 - Production on 29-MAY-2020 07:19:37
Copyright © 1991, 2016, Oracle. All rights reserved.
Alias LISTENER
Version TNSLSNR for Linux: Version 12.2.0.1.0 - Production
Start Date 29-MAY-2020 07:19:12
Uptime 0 days 0 hr. 0 min. 24 sec
Trace Level off
Security ON: Local OS Authentication
SNMP OFF
Listener Parameter File /u01/app/oracle/product/12.2.0/network/admin/listener.ora
Listener Log File /u01/app/oracle/diag/tnslsnr/ora101/listener/alert/log.xml
Listening Endpoints Summary…
(DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=172.16.35.66)(PORT=1521)))
(DESCRIPTION=(ADDRESS=(PROTOCOL=ipc)(KEY=EXTPROC1521)))
The listener supports no services
The command completed successfully
确保shm的值大于等于2G。如果不是,则执行下列步骤改变其值。
(1) 在 /etc/fstab文件添加一行
tmpfs /dev/shm tmpfs defaults,size=2048M 0 0
(2) 执行命令重新挂载 mount -o remount /dev/shm
(3) 执行 df –h验证其正确性。
用vnc客户端登录到运行资源组的服务器(就是有vip,挂接文件系统到目录/oradata的这个系统),跟前边安装oracle软件一样,切换到用户oracle,设置好环境变量DISPLAY=:1,执行数据库助手执行 dbca,片刻就弹出配置图形界面,按提示输入相关信息。需要注意的是,数据库文件位置要选(或者填)共享文件系统挂节点/oradata,快闪恢复区(FRA)也要填写在/oradata目录,如下图所示。
创建过程需要用root执行一个脚本,照着做就好。创建完毕,试着启动一下实例,看是否正常。
创建数据库实例资源。前边的步骤已经正确无误的创建了数据库,并且可以正常启动实例。关闭该实例,待创建好oracle实例资源后,pcs应该正常拉起oracle实例自动启动。
特别需要注意资源组(Resource Group)顺序问题,它必须在文件系统挂接以后才可以往下进行。如果创建数据库资源出错,多半是选项参数部分输入错误,仔细核对就行了。创建成功以后,运行状态如下图:
左侧框中,只有全部是蓝色才为正常,不正常一定是红色!!!那么oracle数据库实例真的起来了么?登录系统,验证一下。
Oracle进程有了,再看连接情况。
监听器故障模拟,分监听器停止与监听器启动不了两种情况。
监听器停止。登录运行资源组的服务器系统,用如下命令进行操作:
[root@ora101 ~]# su - oracle
Last login: Fri May 29 22:31:52 EDT 2020
[oracle@ora101 ~]$ lsnrctl stop
LSNRCTL for Linux: Version 12.2.0.1.0 - Production on 29-MAY-2020 22:32:10
Copyright © 1991, 2016, Oracle. All rights reserved.
Connecting to (DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=172.16.35.66)(PORT=1521)))
The command completed successfully
[oracle@ora101 ~]$ lsnrctl status
LSNRCTL for Linux: Version 12.2.0.1.0 - Production on 29-MAY-2020 22:32:15
Copyright © 1991, 2016, Oracle. All rights reserved.
Connecting to (DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=172.16.35.66)(PORT=1521)))
TNS-12541: TNS:no listener
TNS-12560: TNS:protocol adapter error
TNS-00511: No listener
Linux Error: 111: Connection refused
Connecting to (DESCRIPTION=(ADDRESS=(PROTOCOL=IPC)(KEY=EXTPROC1521)))
TNS-12541: TNS:no listener
TNS-12560: TNS:protocol adapter error
TNS-00511: No listener
Linux Error: 2: No such file or directory
监听器确实停止了,但并没有发生资源漂移。
等待片刻以后,监听器会又在原服务器自动启动。
停止监听器,并故意修改监听器配置,使其不能被正常启动。
改完后,停止监听器,pcs现在应该无法重启监听器。甚至于,手工启动也不行。
[oracle@ora101 ~]$ lsnrctl start
LSNRCTL for Linux: Version 12.2.0.1.0 - Production on 29-MAY-2020 23:05:56
Copyright © 1991, 2016, Oracle. All rights reserved.
Starting /u01/app/oracle/product/12.2.0/bin/tnslsnr: please wait…
TNSLSNR for Linux: Version 12.2.0.1.0 - Production
System parameter file is /u01/app/oracle/product/12.2.0/network/admin/listener.ora
Log messages written to /u01/app/oracle/diag/tnslsnr/ora101/listener/alert/log.xml
Error listening on: (DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=172.16.35.166)(PORT=1521)))
TNS-12545: Connect failed because target host or object does not exist
TNS-12560: TNS:protocol adapter error
TNS-00515: Connect failed because target host or object does not exist
Linux Error: 99: Cannot assign requested address
Listener failed to start. See the error message(s) above…
现在,我们再来看集群的状态,发现资源组发生了转移,漂移到另一台服务器上去了。
再把修改过的监听器配置恢复回来,手动启动监听器,提示不能被正确的验证。
数据库实例故障模拟,也可分停止实例及破坏导致实例不能连接两种情形。
停止数据库实例,观察是否能够被pcs重新启动。
数秒中以后,数据库实例又会在这个服务器自动启动。
修改运行资源组所在服务器的oracle环境变量文件 .bash_profile,使数据库实例不能被正常连接。
实例关闭以后,尝试用手工启动实例(自动起不来),应该不会成功。
数据库实例被停止以后,pcs会去尝试数次重启oracle,不像监听器那么迅速就实现了资源的漂移。
由此可知,修改oracle环境变量并不能造成orace实例启动,要使数据库实例不能启动,可以破坏掉数据库参数文件达到目的,这里就不在尝试。
模拟服务器死机故障
登录运行资源组的服务器,直接关机,再另一台服务器上执行指令查看运行状态。
目前,资源都在节点ora102上运行,那么我们就把节点ora102系统关机。
完全关闭以后,资源全部漂移到另外一个节点ora101,我们从命令行及web页面分别验证一下。
(1) 命令行查看状态:
(2) Web管理界面查看状态:
配置存储位置,在文件/var/lib/pacemaker/cib/cib.xml 中。
主要日志文件:/var/log/pcsd/pcsd.log。
集群同步文件:/etc/corosync/corosync.conf