Arthas
一、简介
Arthas 是Alibaba开源的Java诊断工具。安装在系统所在服务器。可以帮助开发人员或者运维人员查找问题,分析性能,bug追踪。
二、解决什么问题 & 适用场景
解决问题:
1、以全局视角来查看系统的运行状况、健康状况。
2、反编译源码,查看jvm加载的是否为预期的文件内容。
3、查看某个方法的返回值,参数等等。
4、方法内调用路径及各方法调用耗时。
5、查看jvm运行状况。
6、外部.class文件重新加载到jvm里。
等等.....
场景:
1)调用接口时,接口返回异常信息,如果该异常信息没有清晰的定位到代码,那么我们通常只能依靠大脑回忆代码,来估计错误发生地了,如果无法估计,一般情况下就会进入测试环境,模拟复现,如果无法复现 _。
2)这个查询,耗时20s,我们想要分析一下到底是哪些代码导致的。但是该方法内部又穿插调用了其它业务功能方法,难道手写System.currentTimeMillis()自己做减运算,还是guava的StopWatch亦或是commons的StopWatch?这几种方式需要我们手动嵌入代码,容易遗漏、费力还费时。
等等,就不一一举例了。
arthas可以为我们解决上述问题,帮助程序员尽早下班,尽早交代。
三、安装&启动
下载: wget https://alibaba.github.io/arthas/arthas-boot.jar
启动: java -jar arthas-boot.jar
[INFO] arthas-boot version: 3.0.5.2
[INFO] Process 6020 already using port 3658
[INFO] Process 6020 already using port 8563
[INFO] Found existing java process, please choose one and hit RETURN.
*[1]: 6020 org.apache.catalina.startup.Bootstrap
[2]: 16420 org.apache.catalina.startup.Bootstrap
[3]: 7833 org.apache.catalina.startup.Bootstrap
[4]: 19036 org.apache.catalina.startup.Bootstrap
出现上述命令提示,是因为在这个服务器上,存在4个正在运行的java程序,而序号之后的数字就是pid,我们选取对应的pid,然后回车即可。
[INFO] arthas home: /root/.arthas/lib/3.1.4/arthas
[INFO] The target process already listen port 3658, skip attach.
[INFO] arthas-client connect 127.0.0.1 3658
,---. ,------. ,--------.,--. ,--. ,---. ,---.
/ O \ | .--. ''--. .--'| '--' | / O \ ' .-'
| .-. || '--'.' | | | .--. || .-. |`. `-.
| | | || |\ \ | | | | | || | | |.-' |
`--' `--'`--' '--' `--' `--' `--'`--' `--'`-----'
wiki https://alibaba.github.io/arthas
tutorials https://alibaba.github.io/arthas/arthas-tutorials
version 3.1.4
pid 6020
time 2019-10-14 17:56:41
[arthas@6020]$
启动成功!
四、相关命令
仅以主要的几个命令作为展示,具体命令及参数可以参阅官方文档。
1)输入dashboard,回车,仪表盘显示当前进程相关信息。
____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
| ①Thread相关信息
| 线程id 线程名称 线程组 线程优先级 线程状态 线程消耗的cpu百分比 运行总时间 线程当前的中断位状态 是否守护线程
| ID NAME GROUP PRIORITY STATE %CPU TIME INTERRUPTED DAEMON
| 188 Timer-for-arthas-dashboard-f5864b5b-762a-4fb5-8cc5-65559bd6 system 10 RUNNABLE 19 0:0 false true
| 36 pool-1-thread-1 main 5 TIMED_WAITING 5 0:1 false false
| 33 Abandoned connection cleanup thread main 5 TIMED_WAITING 0 0:0 false true
| 179 AsyncAppender-Worker-arthas-cache.result.AsyncAppender system 9 WAITING 0 0:0 false true
| 12 AsyncFileHandlerWriter-225534817 main 5 TIMED_WAITING 0 0:0 false true
| 94 Attach Listener system 9 RUNNABLE 0 0:0 false true
| 70 ContainerBackgroundProcessor[StandardEngine[Catalina]] main 5 TIMED_WAITING 0 0:0 false true
| 34 Druid-ConnectionPool-Create-300669762 main 5 WAITING 0 0:0 false true
| 35 Druid-ConnectionPool-Destroy-300669762 main 5 TIMED_WAITING 0 0:0 false true
| 3 Finalizer system 8 WAITING 0 0:0 false true
| 13 GC Daemon system 2 TIMED_WAITING 0 0:0 false true
| 14 NioBlockingSelector.BlockPoller-1 main 5 RUNNABLE 0 0:0 false true
| 15 NioBlockingSelector.BlockPoller-2 main 5 RUNNABLE 0 0:0 false true
| 2 Reference Handler system 10 WAITING 0 0:0 false true
| 4 Signal Dispatcher system 9 RUNNABLE 0 0:0 false true
| 76 ajp-nio-38009-Acceptor-0 main 5 RUNNABLE 0 0:0 false true
| 74 ajp-nio-38009-ClientPoller-0 main 5 RUNNABLE 0 0:0 false true
| 75 ajp-nio-38009-ClientPoller-1 main 5 RUNNABLE 0 0:0 false true
| 187 as-command-execute-daemon system 10 TIMED_WAITING 0 0:0 false true
| 73 http-nio-37080-Acceptor-0 main 5 RUNNABLE 0 0:0 false true
| 71 http-nio-37080-ClientPoller-0 main 5 RUNNABLE 0 0:0 false true
| 72 http-nio-37080-ClientPoller-1 main 5 RUNNABLE 0 0:0 false true
|
| ②内存信息 ③垃圾回收
| Memory used total max usage GC
| (堆) (垃圾回收次数)
| heap 424M 1897M 1897M 22.37% gc.ps_scavenge.count 19
| (伊甸园) (垃圾回收消耗时间)
| ps_eden_space 311M 387M 403M 77.28% gc.ps_scavenge.time(ms) 1405
| (幸存者区) (标记-清除算法的次数)
| ps_survivor_space 40M 144M 144M 27.74% gc.ps_marksweep.count 3
| (老年代) (标记-清除算法的消耗时间)
| ps_old_gen 72M 1365M 1365M 5.32% gc.ps_marksweep.time(ms) 446
| (非堆区)
| nonheap 137M 141M -1 97.49%
| (代码缓存区)
| code_cache 40M 41M 240M 16.99%
| (元空间)
| metaspace 86M 89M -1 97.09%
| (压缩空间)
| compressed_class_space 10M 10M 1024M 0.99%
| direct 80K 80K - 100.00%
| mapped 0K 0K - NaN%
|
| ④运行信息
| Runtime
| os.name Linux
| os.version 3.10.0-957.1.3.el7.x86_64
| java.version 1.8.0_101
| java.home /opt/jdk1.8.0_101/jre
| systemload.average 0.03
| processors 8
| uptime 11956s
|________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
说明
ID: Java级别的线程ID,注意这个ID不能跟jstack中的nativeID一一对应
NAME: 线程名
GROUP: 线程组名
PRIORITY: 线程优先级, 1~10之间的数字,越大表示优先级越高
STATE: 线程的状态
CPU%: 线程消耗的cpu占比,采样100ms,将所有线程在这100ms内的cpu使用量求和,再算出每个线程的cpu使用占比。
TIME: 线程运行总时间,数据格式为分:秒
INTERRUPTED: 线程当前的中断位状态
DAEMON: 是否是daemon线程
通过上述信息,可以帮助我们快速定位相关问题线程。
2)查看具体线程信息使用 [thread 线程id]
3)查看类里某个方法的返回值和入参
命令+类完全限定名+监测方法+表达式
watch cn.asae.e.contract.web.ContractSubjectController getContractSubjectLogs "{params,returnObj}"
表达式核心变量列表:
loader 本次调用类所在的 ClassLoader
clazz 本次调用类的 Class 引用
method 本次调用方法反射引用
target 本次调用类的实例
params 本次调用参数列表,这是一个数组,如果方法是无参方法则为空数组
returnObj 本次调用返回的对象。当且仅当 isReturn==true 成立时候有效,表明方法调用是以正常返回的方式结束。如果当前方法无返回值 void,则值为 null
throwExp 本次调用抛出的异常。当且仅当 isThrow==true 成立时有效,表明方法调用是以抛出异常的方式结束。
isBefore 辅助判断标记,当前的通知节点有可能是在方法一开始就通知,此时 isBefore==true 成立,同时 isThrow==false 和 isReturn==false,因为在方法刚开始时,还无法确定方法调用将会如何结束。
isThrow 辅助判断标记,当前的方法调用以抛异常的形式结束。
isReturn 辅助判断标记,当前的方法调用以正常返回的形式结束。
4)方法调用路径、耗时解析
方法内部调用路径,并输出方法路径上的每个节点上耗时
trace cn.asae.e.contract.web.ContractController getContract
__________________________________________________________________________________________________________________________________________________________________
| 时间戳 线程名称 线程id 是否守护进程 优先级 线程上下文类加载器
| `---ts=2019-10-21 16:33:13;thread_name=http-nio-37080-exec-5;id=52;is_daemon=true;priority=5;TCCL=org.apache.catalina.loader.WebappClassLoader@67fff846 |
| 调用信息 - 方法拦截器 - 目标方法
| `---[1483.931493ms] cn.asae.e.contract.web.ContractController$$EnhancerBySpringCGLIB$$feabdb7f:getContract() |
| `---[1483.715988ms] org.springframework.cglib.proxy.MethodInterceptor:intercept() #0 |
| `---[1482.519392ms] cn.asae.e.contract.web.ContractController:getContract() |
| +---[0.03355ms] cn.asae.core.common.response.v2.ResponseBodyV2:() #243 |
| +---[0.016195ms] cn.asae.core.common.token.TokenCache:getInstance() #246 |
| +---[0.01442ms] cn.asae.core.common.token.TokenCache:get() #246 |
| +---[0.02442ms] cn.asae.e.common.model.Op:createOp() #246 |
| +---[161.579687ms] cn.asae.e.contract.service.ContractService:getContract() #249 |
| +---[164.980125ms] cn.asae.e.contract.service.ContractService:getContractOcrs() #251 |
| +---[0.036474ms] com.google.common.collect.Maps:newHashMap() #255 |
| +---[158.223852ms] cn.asae.e.contract.service.ContractService:getContractMembers() #260 |
| +---[0.025848ms] com.google.common.collect.Lists:newArrayList() #263 |
| +---[0.024837ms] cn.asae.e.contract.model.ContractVO:getContractNum() #264 |
| +---[160.942618ms] cn.asae.e.contract.service.ContractService:getContracts() #266 |
| +---[0.024172ms] org.apache.commons.collections.MapUtils:isNotEmpty() #271 |
| +---[198.281335ms] cn.asae.e.organization.service.AccountService:getAccountLite() #291 |
| +---[159.761087ms] cn.asae.e.organization.service.DepartmentService:getDepartment() #295 |
| +---[0.009013ms] org.apache.commons.collections.MapUtils:isNotEmpty() #297 |
| +---[0.013967ms] cn.asae.e.contract.model.ContractVO:getSignId() #312 |
| +---[0.006482ms] com.google.common.collect.Lists:newArrayList() #312 |
| +---[160.503511ms] cn.asae.e.organization.service.AccountService:getAccountLite() #312 |
| +---[0.015528ms] cn.asae.e.contract.model.ContractVO:getDepartmentId() #316 |
| +---[0.006504ms] com.google.common.collect.Lists:newArrayList() #316 |
| +---[159.023976ms] cn.asae.e.organization.service.DepartmentService:getDepartment() #316 |
| +---[0.005827ms] cn.asae.e.contract.model.ContractVO:getSignId() #319 |
| +---[0.017222ms] cn.asae.e.organization.model.Account:() #319 |
| +---[0.0142ms] cn.asae.e.organization.model.Account:getFullname() #319 |
| +---[0.012931ms] cn.asae.e.contract.model.ContractVO:setSignName() #319 |
| +---[0.00492ms] cn.asae.e.contract.model.ContractVO:getDepartmentId() #321 |
| +---[0.010856ms] cn.asae.e.organization.model.DepartmentVO:() #321 |
| +---[0.018637ms] cn.asae.e.organization.model.DepartmentVO:getName() #323 |
| +---[0.011019ms] cn.asae.e.contract.model.ContractVO:setDepartmentName() #323 |
| +---[0.010145ms] cn.asae.e.organization.model.DepartmentVO:getOrganizationName() #324 |
| +---[0.010541ms] cn.asae.e.contract.model.ContractVO:setOrganizationName() #324 |
| +---[0.005493ms] com.google.common.collect.Maps:newHashMap() #326 |
| +---[0.014093ms] cn.asae.core.common.response.v2.ResponseBodyV2:init() #333 |
| +---[145.783843ms] cn.asae.e.contract.service.ContractService:addContractLog() #335 |
| `---[0.386367ms] cn.asae.core.common.response.v2.ResponseBodyV2:toResponse() #342 |
|________________________________________________________________________________________________________________________________________________________________|
5)时空隧道
方法执行数据的时空隧道,记录下指定方法每次调用的入参和返回信息,并能对这些不同的时间下调用进行观测
tt -t cn.asae.e.contract.web.ContractSubjectController getContractSubjectLogs
-t 代表记录下每次方法执行情况
_________________________________________________________________________________________________________________________________________________________________
| INDEX | TIMESTAMP | COST(ms) | IS-RET | IS-EXP | OBJECT | CLASS | METHOD |
|-------|---------------------|------------|--------|--------|------------|--------------------------------------------------------|----------------------------|
| 1000 | 2019-10-17 16:46:20 | 315.436761 | true | false | 0x2eb74ebb | ContractSubjectController | getContractSubjectLogs |
| 1001 | 2019-10-17 16:46:20 | 326.193324 | true | false | 0xeb982ed6 | ContractSubjectController$$EnhancerBySpringCGLIB$$23d1 | getContractSubjectLogs |
|_______|_____________________|____________|________|________|____________|________________________________________________________|____________________________|
表格字段说明
表格字段 字段解释
INDEX 时间片段记录编号,每一个编号代表着一次调用,后续tt还有很多命令都是基于此编号指定记录操作,非常重要。
TIMESTAMP 方法执行的本机时间,记录了这个时间片段所发生的本机时间
COST(ms) 方法执行的耗时
IS-RET 方法是否以正常返回的形式结束
IS-EXP 方法是否以抛异常的形式结束
OBJECT 执行对象的hashCode(),注意,曾经有人误认为是对象在JVM中的内存地址,但很遗憾他不是。但他能帮助你简单的标记当前执行方法的类实体
CLASS 执行的类名
METHOD 执行的方法名
为什么调用一次接口会出现两条记录?
因为SpringMVC初始化时会通过cglib生成ContractSubjectController的代理对象,DispatchServlet真正使用的却是这个代理对象,在代理对象里调用ContractSubjectController的getContractSubjectLogs方法,所以当我们执行tt watch命令时,会出现两条。
顺序如下:
ContractSubjectController$$EnhancerBySpringCGLIB$$eefa08b
-> ContractSubjectController
-> getContractSubjectLogs()
往上查找调用者,并做展示,我们会发现第一条的执行时间略小于第二条的执行时间,基本符合上述我们的推断。
6)查看JVM已加载的类信息
sc -d cn.asae.e.contract.web.ContractSubjectController
-d 输出当前类的详细信息,包括这个类所加载的原始文件来源、类的声明、加载的ClassLoader等详细信息。
如果一个类被多个ClassLoader所加载,则会出现多次
____________________________________________________________________________________________________________________________________________
| class-info cn.asae.e.contract.web.ContractSubjectController |
| code-source /opt/tomcat-servers/apache-tomcat-e/webapps/asae-e/WEB-INF/classes/ |
| name cn.asae.e.contract.web.ContractSubjectController |
| isInterface false |
| isAnnotation false |
| isEnum false |
| isAnonymousClass false |
| isArray false |
| isLocalClass false |
| isMemberClass false |
| isPrimitive false |
| isSynthetic false |
| simple-name ContractSubjectController |
| modifier public |
| annotation org.springframework.web.bind.annotation.RestController,org.springframework.web.bind.annotation.RequestMapping |
| interfaces |
| super-class +-java.lang.Object |
| class-loader +-WebappClassLoader |
| context: asae-e |
| delegate: false |
| ----------> Parent Classloader: |
| java.net.URLClassLoader@3af49f1c |
| |
| +-java.net.URLClassLoader@3af49f1c |
| +-sun.misc.Launcher$AppClassLoader@5c647e05 |
| +-sun.misc.Launcher$ExtClassLoader@6537cf78 |
| classLoaderHash 67fff846 |
| |
| class-info cn.asae.e.contract.web.ContractSubjectController$$EnhancerBySpringCGLIB$$8d1d153a |
| code-source /opt/tomcat-servers/apache-tomcat-e/webapps/asae-e/WEB-INF/classes/ |
| name cn.asae.e.contract.web.ContractSubjectController$$EnhancerBySpringCGLIB$$8d1d153a |
| isInterface false |
| isAnnotation false |
| isEnum false |
| isAnonymousClass false |
| isArray false |
| isLocalClass false |
| isMemberClass false |
| isPrimitive false |
| isSynthetic false |
| simple-name ContractSubjectController$$EnhancerBySpringCGLIB$$8d1d153a |
| modifier public |
| annotation |
| interfaces org.springframework.aop.SpringProxy,org.springframework.aop.framework.Advised,org.springframework.cglib.proxy.Factory |
| super-class +-cn.asae.e.contract.web.ContractSubjectController |
| +-java.lang.Object |
| class-loader +-WebappClassLoader |
| context: asae-e |
| delegate: false |
| ----------> Parent Classloader: |
| java.net.URLClassLoader@3af49f1c |
| |
| +-java.net.URLClassLoader@3af49f1c |
| +-sun.misc.Launcher$AppClassLoader@5c647e05 |
| +-sun.misc.Launcher$ExtClassLoader@6537cf78 |
| classLoaderHash 67fff846 |
|__________________________________________________________________________________________________________________________________________|
7)退出arthas
quit —— 退出当前 Arthas 客户端,其他 Arthas 客户端不受影响
shutdown —— 关闭 Arthas 服务端,所有 Arthas 客户端全部退出 & 重置所有增强过的类,就不用单独调用reset
五、来自天边的"海市蜃楼"
Arthas还提供 Web Console。
java -jar arthas-boot.jar --target-ip 192.168.168.67
在局域网内,其它机器可访问 http://192.168.168.67:8563
默认情况下,arthas只listen 127.0.0.1,所以如果想从远程连接,则可以使用 --target-ip参数指定listen的IP,更多参考-h的帮助说明。 注意会有安全风险,考虑tunnel server的方案。
六、结束
关于Arthas就简单介绍到这里了,具体使用还要参考官方文档,希望Arthas能在大家日后的工作学习中帮助大家!