11Grac+ASM+linux2.6.18 processes (100) exceeded

现象:两个节点的11grac环境,在使用软件做复制时,rac1直接down机,rac2ASM实例重启了一下,然后就好了。但rac1一直没启动   

由于rac1一直down机无法登陆上去,所以只好登陆rac2上检查log日志

 rac2的alter日志

  
  
  
  
  1. Stopping background process CJQ0  
  2. Tue Jun 26 14:38:18 2012  
  3. NOTE: ASMB terminating  
  4. Errors in file /oracle/app/db/diag/rdbms/xxxx/xxxx2/trace/xxxx2_asmb_12325.trc:  
  5. ORA-15064: communication failure with ASM instance  
  6. ORA-03113: end-of-file on communication channel  
  7. Process ID:   
  8. Session ID: 103 Serial number: 5  
  9. Errors in file /oracle/app/db/diag/rdbms/xxxx/xxxx2/trace/xxxx2_asmb_12325.trc:  
  10. ORA-15064: communication failure with ASM instance  
  11. ORA-03113: end-of-file on communication channel  
  12. Process ID:   
  13. Session ID: 103 Serial number: 5  
  14. ASMB (ospid: 12325): terminating the instance due to error 15064  
  15. Termination issued to instance processes. Waiting for the processes to exit  
  16.  
  17. Tue Jun 26 14:38:30 2012  
  18. Instance termination failed to kill one or more processes  
  19. Instance terminated by ASMB, pid = 12325  
  20.  
  21. Tue Jun 26 14:58:40 2012  
  22. Adjusting the default value of parameter parallel_max_servers  
  23. from 2560 to 1485 due to the value of parameter processes (1500)  
  24. Starting ORACLE instance (normal)  
  25. Tue Jun 26 14:59:04 2012  
  26. LICENSE_MAX_SESSION = 0  
  27. LICENSE_SESSIONS_WARNING = 0  
  28. Private Interface 'ib0:1' configured from GPnP for use as a private interconnect.  
  29.   [name='ib0:1', type=1, ip=169.254.41.10, mac=80-00-00-48-fe-80, net=169.254.0.0/18, mask=255.255.192.0, use=haip:cluster_interconnect/62]  
  30. Private Interface 'ib1:1' configured from GPnP for use as a private interconnect.  
  31.   [name='ib1:1', type=1, ip=169.254.67.102, mac=80-00-00-49-fe-80, net=169.254.64.0/18, mask=255.255.192.0, use=haip:cluster_interconnect/62]  
  32. Private Interface 'ib2:1' configured from GPnP for use as a private interconnect.  
  33.   [name='ib2:1', type=1, ip=169.254.163.124, mac=80-00-00-48-fe-80, net=169.254.128.0/18, mask=255.255.192.0, use=haip:cluster_interconnect/62]  
  34. Private Interface 'ib3:1' configured from GPnP for use as a private interconnect.  
  35.   [name='ib3:1', type=1, ip=169.254.232.204, mac=80-00-00-49-fe-80, net=169.254.192.0/18, mask=255.255.192.0, use=haip:cluster_interconnect/62]  
  36. Public Interface 'bond0' configured from GPnP for use as a public interface.  
  37.   [name='bond0', type=1, ip=10.240.52.148, mac=00-16-35-02-7f-02, net=10.240.52.128/25, mask=255.255.255.128, use=public/1]  
  38. Public Interface 'bond0:1' configured from GPnP for use as a public interface.  
  39.   [name='bond0:1', type=1, ip=10.240.52.151, mac=00-16-35-02-7f-02, net=10.240.52.128/25, mask=255.255.255.128, use=public/1]  
  40. Public Interface 'bond0:2' configured from GPnP for use as a public interface.  
  41.   [name='bond0:2', type=1, ip=10.240.52.149, mac=00-16-35-02-7f-02, net=10.240.52.128/25, mask=255.255.255.128, use=public/1]  
  42. Public Interface 'bond0:3' configured from GPnP for use as a public interface.  
  43.   [name='bond0:3', type=1, ip=10.240.52.150, mac=00-16-35-02-7f-02, net=10.240.52.128/25, mask=255.255.255.128, use=public/1]  
  44. Picked latch-free SCN scheme 3  
  45. Tue Jun 26 15:00:22 2012  
  46. Autotune of undo retention is turned on.   
  47. LICENSE_MAX_USERS = 0  
  48. SYS auditing is disabled  
  49. Starting up:  
  50. Oracle Database 11g Enterprise Edition Release 11.2.0.2.0 - 64bit Production  
  51. With the Partitioning, Real Application Clusters, OLAP, Data Mining 

发现14:38分报错

单独trace出来的日志

  
  
  
  
  1. Trace file /oracle/app/db/diag/rdbms/xxxx/xxxx2/trace/xxxx2_asmb_12325.trc  
  2. Oracle Database 11g Enterprise Edition Release 11.2.0.2.0 - 64bit Production  
  3. With the Partitioning, Real Application Clusters, OLAP, Data Mining  
  4. and Real Application Testing options  
  5. ORACLE_HOME = /oracle/app/db/11gr2  
  6. System name:    Linux  
  7. Node name:  xxxx  
  8. Release:    2.6.18-274.el5  
  9. Version:    #1 SMP Fri Jul 8 17:36:59 EDT 2011  
  10. Machine:    x86_64  
  11. Instance name: xxxx2  
  12. Redo thread mounted by this instance: 0 <none>  
  13. Oracle process number: 33  
  14. Unix process pid: 12325, image: oracle@xxxx (ASMB)  
  15.  
  16.  
  17. *** 2012-06-25 14:07:00.911  
  18. *** SESSION ID:(1189.1) 2012-06-25 14:07:00.911  
  19. *** CLIENT ID:() 2012-06-25 14:07:00.911  
  20. *** SERVICE NAME:() 2012-06-25 14:07:00.911  
  21. *** MODULE NAME:() 2012-06-25 14:07:00.911  
  22. *** ACTION NAME:() 2012-06-25 14:07:00.911  
  23.    
  24. NOTE: initiating MARK startup   
  25.  
  26. *** 2012-06-26 14:38:18.936  
  27. NOTE: ASMB terminating  
  28. ORA-15064: communication failure with ASM instance  
  29. ORA-03113: end-of-file on communication channel  
  30. Process ID:   
  31. Session ID: 103 Serial number: 5  
  32. error 15064 detected in background process  
  33. ORA-15064: communication failure with ASM instance  
  34. ORA-03113: end-of-file on communication channel  
  35. Process ID:   
  36. Session ID: 103 Serial number: 5  
  37. kjzduptcctx: Notifying DIAG for crash event  
  38. ----- Abridged Call Stack Trace -----  
  39. ksedsts()+461<-kjzdssdmp()+267<-kjzduptcctx()+232<-kjzdicrshnfy()+53<-ksuitm()+1325<-ksbrdp()+3344<-opirip()+623<-opidrv()+603<-sou2o()+103<-opimai_real()+266<-ssthrdmain()+252<-main()+201<-__libc_start_main()+244<-_start()+36   
  40. ----- End of Abridged Call Stack Trace -----  
  41.  
  42. *** 2012-06-26 14:38:19.509  
  43. ASMB (ospid: 12325): terminating the instance due to error 15064  
  44.  
  45. *** 2012-06-26 14:38:30.826  
  46. Instance termination failed to kill one or more processes  
  47. ksuitm_check: OS PID=13918 is still alive  
  48. ksuitm_check: OS PID=13914 is still alive  
  49. ksuitm_check: OS PID=13910 is still alive  
  50. ksuitm_check: OS PID=13905 is still alive  
  51. ksuitm_check: OS PID=12309 is still alive  
  52. ksuitm_check: OS PID=12305 is still alive  
  53. ksuitm_check: OS PID=12301 is still alive  
  54. ksuitm_check: OS PID=12297 is still alive  
  55. ksuitm_check: OS PID=12293 is still alive  
  56. ksuitm_check: OS PID=12289 is still alive  
  57. ksuitm_check: OS PID=12285 is still alive  
  58. ksuitm_check: OS PID=12281 is still alive  
  59. ksuitm_check: OS PID=12277 is still alive  
  60. ksuitm_check: OS PID=12273 is still alive  
  61. ksuitm_check: OS PID=12229 is still alive 

ocssd.log

 

  
  
  
  
  1. 2012-06-26 14:38:14.007: [    CSSD][1077279040]clssscMonitorThreads clssnmvDiskPingThread not scheduled for 196740 msecs  
  2. 2012-06-26 14:38:16.543: [    CSSD][1115167040]clssnmHandleMeltdownStatus: node bjyq-hist-par-db01, number 1, has experienced a failure in thread number 9 and is shutting down  
  3. 2012-06-26 14:38:16.984: [    CSSD][1101257024](:CSSNM00058:)clssnmvDiskCheck: No I/O completions for 200720 ms for voting file /dev/mapper/crsdisk001)  
  4. 2012-06-26 14:38:16.984: [    CSSD][1101257024]clssnmvDiskAvailabilityChange: voting file /dev/mapper/crsdisk001 now offline  
  5. 2012-06-26 14:38:16.984: [    CSSD][1101257024](:CSSNM00018:)clssnmvDiskCheck: Aborting, 0 of 1 configured voting disks available, need 1  
  6. 2012-06-26 14:38:16.984: [    CSSD][1101257024]###################################  
  7. 2012-06-26 14:38:16.984: [    CSSD][1101257024]clssscExit: CSSD aborting from thread clssnmvDiskPingMonitorThread  
  8. 2012-06-26 14:38:16.984: [    CSSD][1101257024]###################################  
  9. 2012-06-26 14:38:16.984: [    CSSD][1101257024](:CSSSC00012:)clssscExit: A fatal error occurred and the CSS daemon is terminating abnormally  
  10. 2012-06-26 14:38:16.984: [   SKGFD][1107282240]Lib :UFS:: closing handle 0x2aaaac04fa00 for disk :/dev/mapper/crsdisk001:  
  11.  
  12. 2012-06-26 14:38:16.984: [    CSSD][1101257024]  
  13.  
  14. ----- Call Stack Trace -----  
  15. 2012-06-26 14:38:16.984: [    CSSD][1101257024]calling              call     entry                argument values in hex        
  16. 2012-06-26 14:38:16.984: [    CSSD][1101257024]location             type     point                (? means dubious value)       
  17. 2012-06-26 14:38:16.984: [    CSSD][1101257024]-------------------- -------- -------------------- ----------------------------  
  18. 2012-06-26 14:38:17.012: [    CSSD][1101257024]clssscExit()+726     call     kgdsdst()            000000000 ? 000000000 ? 

发现asm日志后有这样一段话

 

  
  
  
  
  1. SUCCESS: diskgroup ARCHDG was mounted  
  2. GMON querying group 2 at 17 for pid 18, osid 25807  
  3. NOTE: Instance updated compatible.asm to 11.2.0.0.0 for grp 2  
  4. SUCCESS: diskgroup CRS was mounted  
  5. GMON querying group 3 at 18 for pid 18, osid 25807  
  6. NOTE: Instance updated compatible.asm to 11.2.0.0.0 for grp 3  
  7. SUCCESS: diskgroup DATADG was mounted  
  8. GMON querying group 4 at 19 for pid 18, osid 25807  
  9. NOTE: Instance updated compatible.asm to 11.2.0.0.0 for grp 4  
  10. SUCCESS: diskgroup IDXDG was mounted  
  11. GMON querying group 5 at 20 for pid 18, osid 25807  
  12. NOTE: Instance updated compatible.asm to 11.2.0.0.0 for grp 5  
  13. SUCCESS: diskgroup SYSDG was mounted  
  14. SUCCESS: ALTER DISKGROUP ALL MOUNT /* asm agent call crs *//* {0:0:2} */  
  15. SQL> ALTER DISKGROUP ALL ENABLE VOLUME ALL /* asm agent *//* {0:0:2} */   
  16. SUCCESS: ALTER DISKGROUP ALL ENABLE VOLUME ALL /* asm agent *//* {0:0:2} */  
  17. Tue Jun 26 14:58:00 2012 

证明crs盘在asm里面进行管理

这时节点一启动了,查看rac1的日志

 

  
  
  
  
  1. Tue Jun 26 14:38:18 2012  
  2. NOTE: ASMB process exiting, either shutdown is in progress   
  3. NOTE: or foreground connected to ASMB was killed.   
  4. Tue Jun 26 14:38:18 2012  
  5. NOTE: client exited [18463]  
  6. NOTE: force a map free for map id 2  
  7. Tue Jun 26 14:38:20 2012  
  8. PMON (ospid: 18351): terminating the instance due to error 481  
  9. Tue Jun 26 14:38:20 2012  
  10. ORA-1092 : opitsk aborting process  
  11. Tue Jun 26 14:38:20 2012  
  12. License high water mark = 75  
  13. Termination issued to instance processes. Waiting for the processes to exit  
  14. Tue Jun 26 14:38:30 2012  
  15. Instance termination failed to kill one or more processes  
  16. Instance terminated by PMON, pid = 18351  
  17. Tue Jun 26 14:38:30 2012  
  18. USER (ospid: 26836): terminating the instance  
  19. Termination issued to instance processes. Waiting for the processes to exit 

查看ASM1的log日志

 

  
  
  
  
  1. NOTE: ASMB process exiting, either shutdown is in progress  
  2. NOTE: or foreground connected to ASMB was killed.  
  3. Tue Jun 26 14:38:18 2012  
  4. NOTE: client exited [18463]  
  5. NOTE: force a map free for map id 2  
  6. Tue Jun 26 14:38:20 2012  
  7. PMON (ospid: 18351): terminating the instance due to error 481  
  8. Tue Jun 26 14:38:20 2012  
  9. ORA-1092 : opitsk aborting process  
  10. Tue Jun 26 14:38:20 2012  
  11. License high water mark = 75  
  12. Termination issued to instance processes. Waiting for the processes to exit  
  13. Tue Jun 26 14:38:30 2012 

再此之前注意到有如下的报错

  
  
  
  
  1. ORA-15055: unable to connect to ASM instance  
  2. ORA-00020: maximum number of processes (100) exceeded 

后来想了一下,由于CRS盘在ASM中,由于应用程序的连接数过大导致了processes () exceeded,最基本的CRS通讯都无法启动一个process所以就会导致服务的漂移。但是有两个地方想不清楚,第一,为什么节点1会down机。第二,为什么在切换的时候ASM实例会自己重启一下?

本文出自 “成神之路” 博客,谢绝转载!

你可能感兴趣的:(ASM,重启,RAC,11g)