Oracle CRS的管理与维护

CRS提供了很多命令可以管理和查看集群服务状态,常用的有crs_stat、crs_start、crs_stop、crsctl等,这里依次介绍。
 

1、 查看集群状态
 通过crs_stat命令可以查看集群中所有资源的状态,包括资源状态、资源运行在哪个节点上、资源类型等信息。例如:

   
   
   
   
  1. [oracle@node-rac1 ~]$ crs_stat –t  
  2. Name           Type           Target    State     Host          
  3. ------------------------------------------------------------  
  4. ora....SM1.asm application    ONLINE    ONLINE    node-rac1     
  5. ora....C1.lsnr application    ONLINE    ONLINE    node-rac1     
  6. ora....ac1.gsd application    ONLINE    ONLINE    node-rac1     
  7. ora....ac1.ons application    ONLINE    ONLINE    node-rac1     
  8. ora....ac1.vip application    ONLINE    ONLINE    node-rac1     
  9. ora....SM2.asm application    ONLINE    ONLINE    node-rac2     
  10. ora....C2.lsnr application    ONLINE    ONLINE    node-rac2     
  11. ora....ac2.gsd application    ONLINE    ONLINE    node-rac2     
  12. ora....ac2.ons application    ONLINE    ONLINE    node-rac2     
  13. ora....ac2.vip application    ONLINE    ONLINE    node-rac2     
  14. ora.racdb.db   application    ONLINE    ONLINE    node-rac2     
  15. ora....b1.inst application    ONLINE    ONLINE    node-rac1     
  16. ora....b2.inst application    ONLINE    ONLINE    node-rac2     
  17. ora....test.cs application    ONLINE    ONLINE    node-rac2     
  18. ora....db1.srv application    ONLINE    ONLINE    node-rac1     
  19. ora....db2.srv application    ONLINE    ONLINE    node-rac2  

如果要更详细的了解每个资源的名称及状态,还可以使用“crs_stat -l”命令,例如:

   
   
   
   
  1. [oracle@node-rac2 ~]$crs_stat -l|head -n 15  
  2. NAME=ora.node-rac1.ASM1.asm  
  3. TYPE=application 
  4. TARGET=ONLINE 
  5. STATE=ONLINE on node-rac1  
  6.  
  7. NAME=ora.node-rac1.LISTENER_NODE-RAC1.lsnr  
  8. TYPE=application 
  9. TARGET=ONLINE 
  10. STATE=ONLINE on node-rac1  
  11.  
  12. NAME=ora.node-rac1.gsd  
  13. TYPE=application 
  14. TARGET=ONLINE 
  15. STATE=ONLINE on node-rac1  
  16.  

 可以看到,这个输出中包含了每个服务完整的名称和运行状态。通过了解节点运行状态,有助于对RAC集群的管理和维护。
还可以使用crs_stat -p <resource_name> 来查看资源的属性情况,包括依赖关系等等,例如:

   
   
   
   
  1. [oracle@node-rac1 ~]$crs_stat -p  ora.node-rac2.LISTENER_NODE-RAC2.lsnr  

2.1 crs_stop与crs_start命令
通过crs_stop可以方便的关闭某个服务资源,例如:

   
   
   
   
  1. [oracle@node-rac1 admin]$ crs_stop  ora.node-rac1.LISTENER_NODE-RAC1.lsnr  
  2. Attempting to stop `ora.node-rac1.LISTENER_NODE-RAC1.lsnr` on member `node-rac1`  
  3. Stop of `ora.node-rac1.LISTENER_NODE-RAC1.lsnr` on member `node-rac1` succeeded.  

此时,查看node-rac1节点的LISTENER服务状态:
 

   
   
   
   
  1. [oracle@node-rac1 ~]$ crs_stat -t|grep  lsnr  
  2. ora....C1.lsnr application    OFFLINE   OFFLINE                 
  3. ora....C2.lsnr application    ONLINE    ONLINE    node-rac2   

从输出可知,node-rac1节点的LISTENER服务已经处于OFFLINE状态了。
接着启动node-rac1节点的LISTENER服务:

   
   
   
   
  1. [oracle@node-rac1 ~]$crs_start  ora.node-rac1.LISTENER_NODE-RAC1.lsnr  
  2. Attempting to start `ora.node-rac1.LISTENER_NODE-RAC1.lsnr` on member `node-rac1`  
  3. Start of `ora.node-rac1.LISTENER_NODE-RAC1.lsnr` on member `node-rac1` succeeded.  

其实RAC数据库的监听还可以通过如下方式启动和关闭:
 

   
   
   
   
  1. [oracle@node-rac1 ~]$lsnrctl start LISTENER_NODE-RAC1  
  2. [oracle@node-rac1 ~]$lsnrctl stop LISTENER_NODE-RAC1  

有时候,可能需要将集群资源全部关闭,可以通过如下命令完成:
 

   
   
   
   
  1. [oracle@node-rac1 ~]$ crs_stop  -all  

也通过一个命令将集群所有资源全部启动,操作如下:
 

   
   
   
   
  1. [oracle@node-rac2 ~]$ crs_start  -all  

2.2 crsctl命令


 crsctl命令功能非常强大,它可以检查CRS后台进程运行状态、可以添加/删除表决磁盘、可以启动/关闭集群所有资源、可以启动/关闭CRS服务等等,下面简单介绍下此命令的几个常用参数组合。
 检测node-rac1节点的状态:
[oracle@node-rac2 ~]$crsctl check cluster -node node-rac1         
node-rac1 is ONLINE
 检查cssd服务的运行状态:
[oracle@node-rac2 ~]$crsctl check cssd
Cluster Synchronization Services appears healthy
 检查CRS的运行版本:
[oracle@node-rac2 ~]$crsctl query crs activeversion
Oracle Clusterware active version on the cluster is [11.1.0.6.0]
 查看css加载的模块:
[oracle@node-rac2 ~]$ crsctl  lsmodules css
The following are the Cluster Synchronization Services modules::
    CSSD
    COMMCRS
    COMMNS

停止本节点所有CRS资源:
[oracle@node-rac1 ~]$crsctl stop resources
Stopping resources.
This could take several minutes.
Successfully stopped Oracle Clusterware resources
启动本节点所有CRS资源:
[oracle@node-rac1 ~]$crsctl start resources
Starting resources.
Successfully started CRS resources
在本节点关闭CRS服务,此操作需要root用户身份:

   
   
   
   
  1. [root@node-rac1 ~]#/app/oracrs/product/11.0.6/crs/bin/crsctl stop crs  
  2. Stopping resources.   
  3. This could take several minutes.  
  4. Successfully stopped Oracle Clusterware resources   
  5. Stopping Cluster Synchronization Services.   
  6. Shutting down the Cluster Synchronization Services daemon.   
  7. Shutdown request successfully issued.  

3、启动与关闭CRS

在RAC数据库中,CRS接管了数据库的启动和关闭等操作,集群节点的实例随着CRS服务的启动而自动启动,但是crs也可以进行手工启动和关闭。
管理CRS服务的命令如下:
[root@node-rac1 ~]# /etc/init.d/init.crs {stop|start|enable|disable}
例如,要关闭某个节点的CRS服务,可以执行如下操作:

   
   
   
   
  1. [root@node-rac1 ~]# /etc/init.d/init.crs  stop  
  2. Shutting down Oracle Cluster Ready Services (CRS):  
  3. Sep 08 10:57:14.806 | INF | daemon shutting down  
  4. Stopping resources.   
  5. This could take several minutes.  
  6.  Successfully stopped Oracle Clusterware resources   
  7. Stopping Cluster Synchronization Services.   
  8. Shutting down the Cluster Synchronization Services daemon.   
  9. Shutdown request successfully issued.  
  10. Shutdown has begun. The daemons should exit soon.  

CRS服务关闭后,与此节点相关的集群实例也将随之停止,同时此节点的vip地址也将转移到另一个节点。

接着启动CRS服务,执行如下操作:
[root@node-rac1 ~]# /etc/init.d/init.crs  start
Startup will be queued to init within 30 seconds.
CRS启动后,主要有以下四个后台进程:

   
   
   
   
  1. [oracle@node-rac1 ~]$ ps -ef|grep d.bin  
  2. root   5166  4186  0 Sep07 ? 00:02:33 /app/oracrs/product/11.0.6/crs/bin/crsd.bin reboot  
  3. oracle  5176  5170  0 Sep07 ? 00:00:05 /app/oracrs/product/11.0.6/crs/bin/evmd.bin  
  4. oracle  5840  5309  0 Sep07 ? 00:01:04 /app/oracrs/product/11.0.6/crs/bin/ocssd.bin  
  5. oracle  6306     1  0 Sep07 ? 00:00:00 /app/oracrs/product/11.0.6/crs/bin/oclskd.bin  
  6. oracle   30233 30185  0 10:01 pts/1  00:00:00 grep d.bin  

下面简单介绍下每个进程的含义:
 ocssd:用于管理与协调集群中各节点的关系,并用于节点间通信。该进程非常重要,如果这个进程异常中止,会导致系统自动重启。在某些极端情况下,如果ocssd无法正常启动,就会导致操作系统循环重启。
 crsd:监控节点各种资源,当某个资源发生异常时,自动重启或者切换该资源。
 evmd:是一个基于后台的事件检测程序。
 oclskd:该守护进程是Oracle 11g(11.1.0.6)新增的一个后台进程,主要用于监控RAC数据库节点实例,当某个实例挂起时,就重启该节点。


4、管理Voting disk
 Voting disk(表决磁盘)主要用于记录节点成员信息,例如包含哪些节点成员、节点添加删除信息的记录等。
(1)查看Voting disk
要查看Voting disk信息,可执行如下命令:
crsctl query css votedisk
例如:

   
   
   
   
  1. [oracle@node-rac1 ~]$ crsctl query css votedisk  
  2.  0.     0    /dev/raw/raw3  
  3.  1.     0    /dev/raw/raw4  
  4.  2.     0    /dev/raw/raw5  
  5. Located 3 voting disk(s).  

(2)备份Voting disk
Voting disk的信息很重要,需要定期备份votedisk,例如:
[oracle@node-rac1 ~]$dd if=/dev/raw/raw3 of=/tmp/votedisk.bak
这样就把备份到了/tmp目录下。
(3)恢复Voting disk
例如:
[oracle@node-rac1 ~]$dd if=/tmp/votedisk.bak of=/dev/raw/raw3

(4)删除voting disk镜像盘
如果要删除一块表决磁盘,可以执行如下命令:
crsctl delete css votedisk /dev/raw/raw5 -force
这个操作需要root用户身份,例如:

   
   
   
   
  1. [root@node-rac1 ~]#/app/oracrs/product/11.0.6/crs/bin/crsctl \   
  2. >delete css votedisk  /dev/raw/raw5  
  3. Successful deletion of voting disk /dev/raw/raw5.  
  4. [oracle@node-rac1 ~]$ crsctl query css votedisk  
  5.  0.     0    /dev/raw/raw3  
  6.  1.     0    /dev/raw/raw4  

(5)添加voting disk镜像盘
添加一块表决磁盘时,执行如下命令:
crsctl add css votedisk /dev/raw/raw5 -force
这个操作需要root用户身份,例如:

   
   
   
   
  1. [root@node-rac1 ~]#/app/oracrs/product/11.0.6/crs/bin/crsctl add css votedisk /dev/raw/raw5                                                             Now formatting voting disk: /dev/raw/raw5.  
  2. Successful addition of voting disk /dev/raw/raw5.  
  3. [oracle@node-rac1 ~]$ crsctl query css votedisk  
  4. crsctl query css votedisk  
  5.  0.     0    /dev/raw/raw3  
  6.  1.     0    /dev/raw/raw4  
  7.  2.     0    /dev/raw/raw5  

5、管理OCR


 OCR磁盘主要用于记录节点成员的配置信息,如数据库、服务、实例、vip地址、监听器、应用进程等CRS资源配置信息,OCR可以存储在裸设备或者群集文件系统上。
(1)检查ocr设置
可以通过如下命令查看当前的OCR设置:

   
   
   
   
  1. [oracle@node-rac1 ~]$ ocrcheck  
  2. Status of Oracle Cluster Registry is as follows :  
  3.          Version:            2  
  4.          Total space (kbytes):     4000280  
  5.          Used space (kbytes):        3840  
  6.          Available space (kbytes) :     3996440  
  7.          ID:   1806962807  
  8.          Device/File Name:  /dev/raw/raw1  
  9.                                     Device/File integrity check succeeded  
  10.          Device/File Name: /dev/raw/raw2  
  11.                                     Device/File integrity check succeeded  
  12.          Cluster registry integrity check succeeded  

 
 (2)OCR的备份与恢复
 默认情况下,Oracle每四个小时自动备份一次OCR,并保存三个有效版本,但是仅保存在集群的某一个节点上。
要查看自动备份OCR文件的路径,执行如下命令:

   
   
   
   
  1. [oracle@node-rac1 ~]$ocrconfig -showbackup  
  2. node-rac2     2011/03/11 13:10:27     /app/crs/product/11.0.6/crs/cdata/rac-cluster/backup00.ocr  
  3. node-rac2     2011/03/11 09:10:25     /app/crs/product/11.0.6/crs/cdata/rac-cluster/backup01.ocr  
  4. node-rac2     2011/03/11 05:10:24     /app/crs/product/11.0.6/crs/cdata/rac-cluster/backup02.ocr  
  5. node-rac2     2011/03/10 21:10:20     /app/crs/product/11.0.6/crs/cdata/rac-cluster/day.ocr  
  6. node-rac2     2011/03/10 21:10:20     /app/crs/product/11.0.6/crs/cdata/rac-cluster/week.ocr  

恢复OCR的方法也很简单,例如:
[oracle@node-rac1 ~]$ocrconfig –restore \
> /app/oracrs/product/11.0.6/crs/cdata/rac-cluster/backup01.ocr
其实OCR也可以通过手动的方式导出、导入,方法如下:
手动导出:ocrconfig -export /tmp/ocr_bak
手动导入:ocrconfig -import /tmp/ocr_bak

(3)添加OCR镜像盘
向磁盘组中添加OCR磁盘的基本步骤如下:
 执行命令crsctl stop crs停掉CRS服务
 创建用于镜像OCR的RAW设备,例如:/dev/raw/raw11
 执行“ocrconfig –export”命令导出OCR的信息
 修改/etc/oracle/ocr.loc文件,添加新增的raw设备,例如:

   
   
   
   
  1. [oracle@node-rac1 ~]$more /etc/oracle/ocr.loc  
  2. ocrconfig_loc=/dev/raw/raw1  
  3. ocrmirrorconfig_loc=/dev/raw/raw2  
  4. ocrmirrorconfig_loc=/dev/raw/raw11  
  5. local_only=FALSE 

 执行命令“ocrconfig -import”将OCR备份信息导入磁盘
 检查ocr设置信息,看是否增加成功
 最后用“crsctl start crs”启动CRS服务

6、快速卸载CRS


 CRS安装非常简单,但是如果CRS出现问题,需要重新安装时,卸载CRS并不是一件轻松的事情,下面就重点讲述下如何在Linux下卸载CRS程序。
(1)关闭CRS服务
在卸载CRS之前,必须要停止CRS服务,即执行:
/etc/init.d/init.crs stop
如果无法停止crs服务,那么就将CRS服务禁用,即:
/etc/init.d/init.crs disable
然后重启系统。
(2)执行删除脚本
 首先在集群中的所有节点上执行$ORA_CRS_HOME/install/rootdelete.sh,这里以节点node-rac1为例

   
   
   
   
  1.  [root@node-rac1 install]# /app/oracrs/product/11.0.6/crs/install/rootdeinstall.sh   
  2. Verifying existence of ocr.loc file  
  3. Removing contents from OCR mirror device  
  4. 2560+0 records in  
  5. 2560+0 records out  
  6. 10485760 bytes (10 MB) copied, 3.90308 seconds, 2.7 MB/s  
  7. Removing contents from OCR device  
  8. 2560+0 records in  
  9. 2560+0 records out  
  10. 10485760 bytes (10 MB) copied, 3.84383 seconds, 2.7 MB/s  

接着,在机(集)群中的任意一个节点上执行$ORA_CRS_HOME/install/rootdeinstall.sh。

(3)用图形界面OUI卸载crs
 首先在CRS安装包目录下启动CRS安装欢迎界面,然后在欢迎界面点击“Installed Products”,接着会弹出如下界面: 在这个界面中可以看到已经安装的CRS信息,点击右下角的“Remove”按钮,开始卸载CRS。


(4)删除剩余其它文件
CRS卸载程序可以删除大部分安装程序,但是并不能完全卸载,所以需要手动删除未卸载的一些文件,在集群所有节点上执行如下删除命令:

   
   
   
   
  1. rm -rf /app/oracrs/product/11.0.6/crs/  
  2. /bin/rm -rf /var/tmp/.oracle  
  3. /bin/rm -f /etc/oraInst.loc  
  4. rm -rf /etc/oracle/  
  5. rm -f /etc/oratab  

所有操作执行完毕后,重启集群的每个节点,重新安装CRS即可。
 

 

你可能感兴趣的:(CRS)