HP-UX下Weblogic占用高cpu的解决

今天应该不是貌似了,到了该终结的时候,总结一下两个多月来过程吧

环境:
HP-UX11.23 IA64 4C8G  (CPU=1300m)
Weblogic 8.1 sp3 (后升级到sp6)
HP jdk 1.4.2.10(曾经升级到20)
Oracle 10.1.0.2

现象:
每天有1到5次weblogic挂起,挂起是cpu占用100%或者200%,http访问不响应,kill -3 <pid>打不出thread dump,telnet <ip> 7001没有反应,weblogic console不相应。从console的gc回收曲线上能看出每次挂起都是在gc开始的时候(处于曲线的顶点)

排查过程:
网络上有几百个FIN_WAIT2_2连接,怀疑dos攻击,用ndd修改系统参数,设置超时时间是1s;
排查应用是否有数据库连接未释放;
使用hpjconfig工具,把建议的HP-UX的patch全部打上;
根据后台的错误,联系明宇报表的厂家,模板过大或者数据量大导致的后台错误,不影响使用;
发现在jvm heap的old未满的情况下频繁full gc,调整gc参数;
优化数据库系统,重建索引,索引表空间分离
根据HP工程师的要求,使用HPJMETER,HPJTUNE,tusc,gdb等工具调试,生成coredump,文件比较大,一般生成再startweblogic的目录下面,jvm heap+Perm+weblogic的内存

结果:
应用中一个MAP出了问题,“Need to add Synchronized access to the tables.”,这个map是一个类的私有,这个类在另外一个类中定义成了静态对象,在应用过程中需要对这个map反复插入数据,导致了这个问题。HP的专家是这么说的:
“They have a hashmap that has gone circular”
“The reason why the app hangs is this thread never comes to a safepoint and there is a GC active.”
至于为什么这么写会让hashmap“gone circular”,以及为什么此时恰巧"GC active”就会hangs,我还没有搞明白,会不会是hp jvm的bug? 没有在sun jvm,jrocket下测试过

在问题的解决过程中得到了很多朋友的帮助,在此一并感谢:
beckdim、wangchao等bea专家,一直关注,并给予weblogic的调优、调试指导;
朱远翔先生,在最无助的时候给予我很多的建议和资料
cats_tiger,最早关注本问题,并提出了自己的看法;
最后是HP的Gene、XiaYang、Lihuawei等工程师

问题代码:
public class EnumerationBean {
    private Map enums;
    public EnumerationBean(String name) {
        enums=new HashMap();
        this.name=name;
    }
    public void add(Object key, Object value) {
        this.enums.put(key,value);
    }
... ...

public class EnumerationType {
    private static EnumerationBean staenumBean = null;
    public static EnumerationBean getEnu(String type) {
	staenumBean = new EnumerationBean(type);		   
	staenumBean.add(...);
... ...

你可能感兴趣的:(jvm,oracle,weblogic,网络应用,HP)