HPUX Error 23 File table overflow

一套HP-UX 11.23+Oracle 10g 10.2.0.4 RAC环境,早上10点多发现节点1出现异常,在告警日志中出现如下错误:
Thu Dec 29 10:56:43 2011
Errors in file /opt/oracle/product/admin/portal/udump/portal1_ora_24701.trc:
ORA-15025: could not open disk '/dev/vgarch/rraw02'
ORA-27041: unable to open file
HPUX-ia64 Error: 23: File table overflow
Additional information: 3
搜索了下,该错误是因为打开文件数达到最大值造成的,于是查看了下该节点的打开文件数:
sar -v 3 5 或者 kcusage nfile 都可以查看
# kcusage nfile
Tunable Usage / Setting
=============================================
nfile 65924 / 66000
可以从上面结果看到这个值已经快到最大值了。
接着更严重的情况出现了,执行系统命令也会出现错误了:
# kcusage nfile
/usr/lib/hpux64/uld.so: Unable to open '/usr/lib/hpux64/dld.so'.
Abort(coredump)
$ crs_stat -t
aCC runtime: Uncaught exception of type "FatalCommsException".
Abort(coredump)
$ tail -1000 /opt/oracle/product/admin/portal/bdump/alert_portal1.log | grep -iE 'ora-|error'
sh: Cannot create a pipe.

同时同事在另一台堡垒机上也登陆不了系统。
时间紧迫,只剩下另一个节点在跑着,想着赶紧把这个节点拉起来,手工重启节点之后,问题得到解决,查看了下nfile也降到了正常水平。
接下来的问题就是查下是oracle bug还是os bug,或者说还是默认参数值不适合,需要增加该参数的值。
附:
检查操作系统的内核参数,可以使用操作系统管理器来查看下参数设置值是多少:
/usr/sbin/sam命令可以打开管理器,以此打开Kernel Configuration--Configurable Parameters可以查看具体的参数。
关于参数的设置,oracle建议设置如下:
nfile (15*nproc+2048)
nproc 4096
可以得出nfile=15*4096+2048=63488.
另外有网友说到如果要进行监控,那么提醒阀值=oracle.process*oracle.datafiles+2048,极限值=nproc*oracle.datafiles。
-The End-


你可能感兴趣的:(overflow)