内存泄露&arthas

一次内存溢出排查过程

导出超过20W条数据到excel。

默认使用poi提供方法XssfWorkBook进行写入Excel。

分页查询数据,每次查询完之后,写入到Excel。

现象

在写入数据10W+的时候,用时2分钟左右;

但10W+之后,速度开始慢了下,导出20W数据大约需要30分钟左右;多次导出之后,出现内存溢出问题。

排查

猜测1

怀疑sql查询太慢,超过10W条数据可能出现了深度翻页的问题。

但是通过增加日志,打印执行时间,发现用时并没有太久(同时,sql查询也有超时时间,超过5s左右会终止查询,抛出异常,而这种情况并没有出现)。

猜测2

怀疑可能是Excel文件太大了,后面写入会增加时间,导致速度慢下来了。但是通过增加打印日志,发现耗时基本是可以忽略的。

猜测3

在导出过程中,页面进行其他操作,接口出现超时。怀疑是jvm在做full gc,出现了“Stop The World”情况。

通过arthas 监控内存,以及通过jmap -histo 命令观察gc情况,发现事实是这样,执行full gc的次数很频繁,而且每次执行完full gc之后,堆内存的情况并没有很明显的减少,导致出现了频发full gc的情况。

通过jmap -heap 命令查看内存分布情况,发现排名靠前的对象有类似dom4j的东西,所以怀疑是写入Excel导致内存泄露。

解决方法:SXssfWorkBook替换XssfWorkBook。问题解决。

使用到的工具和命令

- arthas

- jmap -histo [pid] [interval]

- jmap -heap >> test.txt

其他现象

在线上环境,偶尔会收到报警调用ES超时;

一般情况下都是ES所在的机器jvm发生full gc;

导致full gc的原因:某个商家做活动,一段时间内涌入了大量的流量,导致ES内存增长很快,所以产生了full gc。在full gc的时间段内,对外基本不提供服务,接口超时。

arthas

dashboard

当前系统的实时数据面板

线程信息(部分)、内存、GC次数、GC时间、基本信息


内存泄露&arthas_第1张图片


thread

显示线程信息

thread -n 指定最忙的前N个线程并打印堆栈


内存泄露&arthas_第2张图片

jvm

jvm的配置信息


内存泄露&arthas_第3张图片

sc

打印类的详细信息


内存泄露&arthas_第4张图片

打印类中详细信息以及变量信息


内存泄露&arthas_第5张图片

sm

查看已加载类的方法信息


查看方法的详细信息


内存泄露&arthas_第6张图片

monitor

非实时返回

-c :统计周期,默认为120秒

监控项:

timestamp 时间戳

class java类

mehtod 方法(构造方法、普通方法)

total 调用次数

success 成功次数

fail 失败次数

rt 平均rt

fail-rate 失败率

monitor class-pattern method pattern


内存泄露&arthas_第7张图片

trace

方法内部调用路径,并输出方法路径上的每个节点的耗时

trace class-pattern method-pattern -n #cost

trace *StringUtils isBlacnk '$cost>100'


内存泄露&arthas_第8张图片

stack

查看某个方法的调用路径-堆栈信息


内存泄露&arthas_第9张图片

watch

grovy 表达式


内存泄露&arthas_第10张图片

watch com.example.demo.arthas.ArthasInnerService test2  "{params.length,params[0],returnObj.age}" returnObj.books.size()>4

你可能感兴趣的:(内存泄露&arthas)