10G RAC单节点重启的故障

遇到10G RAC单节点重启的故障按照以下步骤检查:首先可以结合操作系统的dump文件确定是哪个进程导致的重启。或者是否是其他问题。 如果时cssd.bin导致重启,最常见的重启问题: 一:察看crs下ocssd.log集群日志文件。搜索关键字:WARNING察看有没有问题存在。 如果出现连续30个如下错误报警导致重启:[    CSSD]2008-10-30 15:23:36.483 [3086] >WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds检查网络心跳链路:主机私有网卡,交换机,线路,hosts文件是否正常。 如出现短暂的如下错误,例如只出现一两个,一个节点就被驱逐导致重启:[    CSSD]2008-10-30 15:23:36.483 [3086] >WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds请检查磁盘心跳votedisk和ocr是否正常,确定是否使用文件系统(确定文件系统工作正常)。检查votedisk:crsctl query css votedisk检查ocr:ocrcheck 如果出现以下错误:WARNING: clssnmPollingThread: node p595-2 (2) at 50% heartbeat fatal, eviction in 13.644 seconds问题出在磁盘心跳请依照上面检查。二:2.检查看看系统是否处在高负载状态,cpu,内存等。 3.察看是否为误操作,删除crs_home。 4.Css的设置问题,hosts文件等 5.杀死init.cssd fatal进程和 ocssd进程 6.Oracle bug问题- An Oracle bug. Known bugs that can cause CSS reboots:Note 264699.1 - CSS Fails to Flush Writes After Installing 10.1.0.2 CRS on Linux with OCFSBug 3942568 - A deadlock can occur between 2 threads of the CSS daemon process.Fixed in 10.1.0.4 and above.SOLARIS ONLY: See these bugids that fixed the problem (in Solaris 9; the fixes were backported to Solaris 8 Update 6): 三:检查操作系统设置参数:检查操作系统中/etc/init.d/init.cssd文件中参数: OPROCD_DEFAULT_MARGIN最少设置为为500。(避免节点重启) -t : 超时时间,缺省1000,单位毫秒 (OPROCD_DEFAULT_TIMEOUT=1000)-m : 重启前可接受的延迟,单位毫秒,缺省500 (OPROCD_DEFAULT_MARGIN=500) 检查ORACLE提供的CLUSTER来说,是否设置为最少css MISSCOUNT是600秒。(crsctl命令修改)

你可能感兴趣的:(关键字,操作系统)