java后端常用线上问题排查命令

内存瓶颈

free

free是查看内存使用情况，包括物理内存、交换内存(swap)和内核缓冲区内存。

free -h -s 3表示每隔三秒输出一次内存情况，命令如下

image.png

Mem：是内存的使用情况。
Swap：是交换空间的使用情况。
total：系统总的可用物理内存和交换空间大小。
used：已经被使用的物理内存和交换空间。
free：还有多少物理内存和交换空间可用使用，是真正尚未被使用的物理内存数量。
shared：被共享使用的物理内存大小。
buff/cache：被 buffer（缓冲区）和 cache（缓存）使用的物理内存大小。
available：还可以被应用程序使用的物理内存大小，它是从应用程序的角度看到的可用内存数量，available ≈ free + buffer + cache。

交换空间(swap space)

swap space 是磁盘上的一块区域，当系统物理内存吃紧时，Linux 会将内存中不常访问的数据保存到 swap 上，这样系统就有更多的物理内存为各个进程服务，而当系统需要访问 swap 上存储的内容时，再将 swap 上的数据加载到内存中，这就是常说的换出和换入。交换空间可以在一定程度上缓解内存不足的情况，但是它需要读写磁盘数据，所以性能不是很高。

vmstat（推荐）

vmstat（VirtualMeomoryStatistics，虚拟内存统计）是Linux中监控内存的常用工具，可对操作系统的虚拟内存、进程、CPU等的整体情况进行监视，推荐使用。

vmstat 5 3表示每隔5秒统计一次，一共统计三次。

image.png

procs

r：表示运行和等待CPU时间片的进程数（就是说多少个进程真的分配到CPU），这个值如果长期大于系统CPU个数，说明CPU不足，需要增加CPU。b：表示在等待资源的进程数，比如正在等待I/O或者内存交换等。

memory

swpd：表示切换到内存交换区的内存大小，即虚拟内存已使用的大小（单位KB），如果大于0，表示你的机器物理内存不足了，如果不是程序内存泄露的原因，那么你该升级内存了或者把耗内存的任务迁移到其他机器。free：表示当前空闲的物理内存。buff：表示缓冲大小，一般对块设备的读写才需要缓冲 Cache：表示缓存大小，一般作为文件系统进行缓冲，频繁访问的文件都会被缓存，如果cache值非常大说明缓存文件比较多，如果此时io中的bi比较小，说明文件系统效率比较好。

swap

si：表示数据由磁盘读入内存；通俗的讲就是每秒从磁盘读入虚拟内存的大小，如果这个值大于0，表示物理内存不够用或者内存泄露了，要查找耗内存进程解决掉。so：表示由内存写入磁盘，也就是由内存交换区进入内存的数据大小。

!! 注意：一般情况下si、so的值都为0，如果si、so的值长期不为0，则说明系统内存不足，需要增加系统内存

io

bi：表示由块设备读入数据的总量，即读磁盘，单位kb/s bo：表示写到块设备数据的总量，即写磁盘，单位kb/s

!! 注意：如果bi+bo的值过大，且wa值较大，则表示系统磁盘IO瓶颈。

system

in：表示某一时间间隔内观测到的每秒设备终端数。cs：表示每秒产生的上下文切换次数，这个值要越小越好，太大了，要考虑调低线程或者进程的数目。例如在apache和nginx这种web服务器中，我们一般做性能测试时会进行几千并发甚至几万并发的测试，选择web服务器的进程可以由进程或者线程的峰值一直下调，压测，直到cs到一个比较小的值，这个进程和线程数就是比较合适的值了。系统调用也是，每次调用系统函数，我们的代码就会进入内核空间，导致上下文切换，这个是很耗资源，也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换，导致CPU干正经事的时间少了，CPU没有充分利用，是不可取的。

!! 注意：这两个值越大，则由内核消耗的CPU就越多。

CPU

us：表示用户进程消耗的CPU时间百分比，us值越高，说明用户进程消耗CPU时间越多，如果长期大于50%，则需要考虑优化程序或者算法。sy：表示系统内核进程消耗的CPU时间百分比，一般来说us+sy应该小于80%，如果大于80%，说明可能存在CPU瓶颈。id：表示CPU处在空间状态的时间百分比。wa：表示IP等待所占用的CPU时间百分比，wa值越高，说明I/O等待越严重，根据经验wa的参考值为20%，如果超过20%，说明I/O等待严重，引起I/O等待的原因可能是磁盘大量随机读写造成的，也可能是磁盘或者监控器的贷款瓶颈（主要是块操作）造成的。

sar

sar和free类似sar -r 3每隔三秒输出一次内存信息：

image.png

CPU瓶颈

查看机器cpu核数

image.png

查看CPU信息（型号）

image.png

查看物理CPU个数

image.png

查看每个物理CPU中core的个数(即核数)

image.png

查看逻辑CPU的个数

image.png

top

在Linux内核的操作系统中，进程是根据虚拟运行时间（由进程优先级、nice值加上实际占用的CPU时间进行动态计算得出）进行动态调度的。在执行进程时，需要从用户态转换到内核态，用户空间不能直接操作内核空间的函数。通常要利用系统调用来完成进程调度，而用户空间到内核空间的转换通常是通过软中断来完成的。例如要进行磁盘操作，用户态需要通过系统调用内核的磁盘操作指令，所以CPU消耗的时间被切分成用户态CPU消耗、系统（内核） CPU 消耗，以及磁盘操作 CPU 消耗。执行进程时，需要经过一系列的操作，进程首先在用户态执行，在执行过程中会进行进程优先级的调整（nice），通过系统调用到内核，再通过内核调用，硬中断、软中断，让硬件执行任务。执行完成之后，再从内核态返回给系统调用，最后系统调用将结果返回给用户态的进程。

top可以查看CPU总体消耗，包括分项消耗，如User，System，Idle，nice等。Shift + H显示java线程；Shift + M按照内存使用排序；Shift + P按照CPU使用时间（使用率）排序；Shift + T按照CPU累积使用时间排序；多核CPU，进入top视图1，可以看到各各CPU的负载情况。

image.png

第一行：15:24:11 up 8 days, 7:52, 1 user, load average: 5.73, 6.85, 7.33：15:24:11 系统时间，up 8 days 运行时间，1 user 当前登录用户数，load average 负载均衡情况，分别表示1分钟，5分钟，15分钟负载情况。

第二行：Tasks: 17 total, 1 running, 16 sleeping, 0 stopped, 0 zombie：总进程数17，运行数1，休眠 16，停止0，僵尸进程0。

第三行：%Cpu(s): 13.9 us, 9.2 sy, 0.0 ni, 76.1 id, 0.1 wa, 0.0 hi, 0.1 si, 0.7 st：用户空间CPU占比13.9%，内核空间CPU占比9.2%，改变过优先级的进程CPU占比0%，空闲CPU占比76.1，IO等待占用CPU占比0.1%，硬中断占用CPU占比0%，软中断占用CPU占比0.1%,当前VM中的cpu 时钟被虚拟化偷走的比例0.7%。

第四和第五行表示内存和swap区域的使用情况。

第七行表示：

PID: 进程id
USER:进程所有者
PR:进程优先级
NI:nice值。负值表示高优先级，正值表示低优先级
VIRT:虚拟内存，进程使用的虚拟内存总量，单位kb。VIRT=SWAP+RES
RES:常驻内存，进程使用的、未被换出的物理内存大小，单位kb。RES=CODE+DATA
SHR:共享内存，共享内存大小，单位kb
S:进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
%CPU:上次更新到现在的CPU时间占用百分比
%MEM:进程使用的物理内存百分比
TIME+:进程使用的CPU时间总计，单位1/100秒
COMMAND:进程名称（命令名/命令行）

计算在cpu load里面的uninterruptedsleep的任务数量

image.png

sar

通过sar -u 3可以查看CUP总体消耗占比：

image.png

%user：用户空间的CPU使用。
%nice：改变过优先级的进程的CPU使用率。
%system：内核空间的CPU使用率。
%iowait：CPU等待IO的百分比。
%steal：虚拟机的虚拟机CPU使用的CPU。
%idle：空闲的CPU。

在以上的显示当中，主要看%iowait和%idle：

若 %iowait的值过高，表示硬盘存在I/O瓶颈；
若 %idle的值高但系统响应慢时，有可能是 CPU 等待分配内存，此时应加大内存容量；
若 %idle的值持续低于 10，则系统的 CPU 处理能力相对较低，表明系统中最需要解决的资源是 CPU；

定位线上最耗CPU的线程

准备工作

启动一个程序。arthas-demo是一个简单的程序，每隔一秒生成一个随机数，再执行质因数分解，并打印出分解结果。

image.png

通过`top`命令找到最耗时的进程

image.png

找到进程号是98344。

找到进程中最耗CUP的线程

使用ps -Lp #pid cu命令，查看某个进程中的线程CPU消耗排序：

image.png

看TIME列可以看出那个线程耗费CUP多，根据LWP列可以看到线程的ID号，但是需要转换成16进制才可以查询线程堆栈信息。

获取线程id的十六进制码

使用printf '%x\n' 98345命令做进制转换：

image.png

查看线程堆栈信息

使用jstack获取堆栈信息jstack 98344 | grep -A 10 18029：

image.png

通过命令我们可以看到这个线程的对应的耗时代码是在demo.MathGame.main(MathGame.java:17)

image.png

网络瓶颈

定位丢包，错包情况

watch more /proc/net/dev用于定位丢包，错包情况，以便看网络瓶颈，重点关注drop(包被丢弃)和网络包传送的总量，不要超过网络上限：

image.png

最左边的表示接口的名字，Receive表示收包，Transmit表示发送包；
bytes：表示收发的字节数；
packets：表示收发正确的包量；
errs：表示收发错误的包量；
drop：表示收发丢弃的包量；

查看路由经过的地址

traceroute ip可以查看路由经过的地址，常用来统计网络在各个路由区段的耗时，如：

image.png

查看网络错误

netstat -i可以查看网络错误：

image.png

Iface: 网络接口名称;
MTU: 最大传输单元，它限制了数据帧的最大长度，不同的网络类型都有一个上限值，如：以太网的MTU是1500；
RX-OK：接收时，正确的数据包数。
RX-ERR：接收时，产生错误的数据包数。
RX-DRP：接收时，丢弃的数据包数。
RX-OVR：接收时，由于过速（在数据传输中，由于接收设备不能接收按照发送速率传送来的数据而使数据丢失）而丢失的数据包数。
TX-OK：发送时，正确的数据包数。
TX-ERR：发送时，产生错误的数据包数。
TX-DRP：发送时，丢弃的数据包数。
TX-OVR：发送时，由于过速而丢失的数据包数。
Flg：标志，B 已经设置了一个广播地址。L 该接口是一个回送设备。M 接收所有数据包（混乱模式）。N 避免跟踪。O 在该接口上，禁用ARP。P 这是一个点到点链接。R 接口正在运行。U 接口处于“活动”状态。

包的重传率

cat /proc/net/snmp用来查看和分析240秒内网络包量，流量，错包，丢包。通过RetransSegs和OutSegs来计算重传率tcpetr=RetransSegs/OutSegs。

image.png

重传率=292/223186≈0.13%

平均每秒新增TCP连接数：通过/proc/net/snmp文件得到最近240秒内PassiveOpens的增量，除以240得到每秒的平均增量；
机器的TCP连接数：通过/proc/net/snmp文件的CurrEstab得到TCP连接数；
平均每秒的UDP接收数据报：通过/proc/net/snmp文件得到最近240秒内InDatagrams的增量，除以240得到平均每秒的UDP接收数据报；
平均每秒的UDP发送数据报：通过/proc/net/snmp文件得到最近240秒内OutDatagrams的增量，除以240得到平均每秒的UDP发送数据报；

磁盘瓶颈

查磁盘空间

查看磁盘剩余空间

查看磁盘剩余空间使用df -hl命令：

image.png

查看磁盘已使用空间

du -sh命令是查看磁盘已使用空间的情况，这里的“已使用的磁盘空间”意思是指定的文件下的整个文件层次结构所使用的空间，在没给定参数的情况下，du报告当前目录所使用的磁盘空间。其实就是显示文件或目录所占用的磁盘空间的情况：

image.png

-h：输出文件系统分区使用的情况，例如：10KB，10MB，10GB等。
-s：显示文件或整个目录的大小，默认单位是KB。

!! du的详细信息可以通过 man du查看。

查看磁盘读写情况

查看磁盘总体读写情况

通iostat查看磁盘总体的读写情况：

image.png

tps：该设备每秒的传输次数。
kB_read/s：每秒从设备（drive expressed）读取的数据量；
kB_wrtn/s：每秒向设备（drive expressed）写入的数据量；
kB_read：读取的总数据量；
kB_wrtn：写入的总数量数据量；

查看磁盘详细读写情况

通过iostat -x 1 3可以看到磁盘详细读写情况，没隔一秒输出一次一共输出3次，当看到I/O等待时间所占CPU时间的比重很高的时候，首先要检查的就是机器是否正在大量使用交换空间，同时关注iowait占比cpu的消耗是否很大，如果大说明磁盘存在大的瓶颈，同时关注await，表示磁盘的响应时间以便小于5ms：

image.png

avg-cpu表示总体cpu使用情况统计信息，对于多核cpu，这里为所有cpu的平均值：

%user：CPU处在用户模式下的时间百分比。
%nice：CPU处在带NICE值的用户模式下的时间百分比。
%system：CPU处在系统模式下的时间百分比。
%iowait：CPU等待输入输出完成时间的百分比，如果%iowait的值过高，表示硬盘存在I/O瓶颈。
%steal：管理程序维护另一个虚拟处理器时，虚拟CPU的无意识等待时间百分比。
%idle：CPU空闲时间百分比，如果%idle值高，表示CPU较空闲；如果%idle值高但系统响应慢时，可能是CPU等待分配内存，应加大内存容量；如果%idle值持续低于10，表明CPU处理能力相对较低，系统中最需要解决的资源是CPU。。

Device表示设备信息：

rrqm/s：每秒对该设备的读请求被合并次数，文件系统会对读取同块(block)的请求进行合并
wrqm/s：每秒对该设备的写请求被合并次数
r/s：每秒完成的读次数
w/s：每秒完成的写次数
rkB/s：每秒读数据量(kB为单位)
wkB/s：每秒写数据量(kB为单位)
avgrq-sz：平均每次IO操作的数据量(扇区数为单位)
avgqu-sz：平均等待处理的IO请求队列长度
await：平均每次IO请求等待时间(包括等待时间和处理时间，毫秒为单位)
svctm：平均每次IO请求的处理时间(毫秒为单位)
%util：一秒中有百分之多少的时间用于 I/O如果%util接近100%，说明产生的I/O请求太多，I/O系统已经满负荷。idle小于70% IO压力就较大了，一般读取速度有较多的wait。

!! iostat -xmd 1 3：新增m选项可以在输出是使用M为单位。

查看最耗IO的进程

一般先通过iostat查看是否存在io瓶颈，再使用iotop命令来定位那个进程最耗费IO：

image.png

通过iotop -p pid可以查看单个进程的IO情况：

image.png

应用瓶颈

查看某个进程的PID

如查看java的进程的pid，ps -ef | grep java:

image.png

查看特定进程的数量

如查看java进程的数量,ps -ef | grep java| wc -l：

image.png

查看线程是否存在死锁

查看线程是否存在死锁，jstack -l pid：

image.png

查看某个进程的线程数

ps -efL | grep [PID] | wc -l，如：

image.png

查看具体有哪些线程用ps -Lp [pid] cu:

image.png

统计所有的log文件中，包含Error字符的行

find / -type f -name "*.log" | xargs grep "ERROR"，这个在排查问题过程中比较有用：

image.png

应用启动时指定JVM参数

java -jar -Xms128m -Xmx1024m -Xss512k -XX:PermSize=128m -XX:MaxPermSize=64m -XX:NewSize=64m -XX:MaxNewSize=256m arthas-demo.jar，如：

image.png

总结

在使用linux命令时，如果想看帮助可以使用--help或者man查看帮助信息：

image.png

类别	监控命令	描述	备注
内存瓶颈	free	查看内存使用
	vmstat 3(间隔时间) 100(监控次数)	查看swap in/out详细定位是否存在性能瓶颈	推荐使用
	sar -r 3	和free命令类似，查看内存的使用情况，但是不包含swap的情况
cpu瓶颈	top -H	按照cpu消耗高低进行排序
	ps -Lp 进程号 cu	查看某个进程的cpu消耗排序
	cat /proc/cpuinfo \|grep 'processor'\|wc -l	查看cpu核数
	top	查看cpu总体消耗，包括分项消耗如user,system,idle,nice等消耗
	top 然后shift+h:显示java线程，然后shift+M:按照内存使用进行排序；shift+P:按照cpu时间排序;shift+T:按照cpu累计使用时间排序多核cpu，按“1”进入top视图	专项性能排查，多核CPU主要看CUP各个内核的负载情况
	sar -u 3(间隔时间)	查看cpu总体消耗占比
	sar -q	查看cpu load
	top -b -n 1	awk '{if (NR<=7)print;else if($8=="D"){print;count++}}END{print "Total status D:"count}'	计算在cpu load里面的uninterruptedsleep的任务数量 uninterruptedsleep的任务会被计入cpu load，如磁盘堵塞
网络瓶颈	cat /var/log/messages	查看内核日志，查看是否丢包
	watch more /proc/net/dev	用于定位丢包，错包情况，以便看网络瓶颈	重点关注drop(包被丢弃)和网络包传送的总量，不要超过网络上限
	sar -n SOCK	查看网络流量
	netstat -na\|grep ESTABLISHED\|wc -l	查看tcp连接成功状态的数量	此命令特别消耗cpu，不适合进行长时间监控数据收集
	netstat -na	awk'{print $6}'\|sort \|uniq -c \|sort -nr \| 看tcp各个状态数量
	netstat -i	查看网络错误
	ss state ESTABLISHED\| wc -l	更高效地统计tcp连接状态为ESTABLISHED的数量
	cat /proc/net/snmp	查看和分析240秒内网络包量，流量，错包，丢包	用于计算重传率`tcpetr=RetransSegs/OutSegs`
	ping $ip	测试网络性能
	traceroute $ip	查看路由经过的地址	常用于定位网络在各个路由区段的耗时
	dig $域名	查看域名解析地址
	dmesg	查看系统内核日志
磁盘瓶颈	iostat -x -k -d 1	详细列出磁盘的读写情况	当看到I/O等待时间所占CPU时间的比重很高的时候，首先要检查的就是机器是否正在大量使用交换空间，同时关注iowait占比cpu的消耗是否很大，如果大说明磁盘存在大的瓶颈，同时关注await，表示磁盘的响应时间以便小于5ms
	iostat -x	查看系统各个磁盘的读写性能	重点关注await和iowait的cpu占比
	iotop	查看哪个进程在大量读取IO	一般先通过iostat查看是否存在io瓶颈，再定位哪个进程在大量读取IO
	df -hl	查看磁盘剩余空间
	du -sh	查看磁盘使用了多少空间
应用瓶颈	ps -ef	grep java	查看某个进程的id号
	ps -ef\| grep httpd\| wc -l	查看特定进程的数量
	cat * .log \| grep * Exception\| wc -l	统计日志文件中包含特定异常数量
	jstack -l pid	用于查看线程是否存在死锁
	awk'{print $8}' 2017-05-22-access_log\| egrep '301\| 302'\| wc -l	统计log中301、302状态码的行数，$8表示第八列是状态码，可以根据实际情况更改	常用于应用故障定位
	grep 'wholesaleProductDetailNew' cookie_log \| awk '{if(12'	more	打印包含特定数据的12列数据
	grep "2017:05:22" cookielog\| awk '($12>0.3){print 8}' \| sort > 目录地址	对apache或者nginx访问log进行响应时间排序，$12表示cookie log中的12列表示响应时间用于排查是否是由于是某些访问超长造成整体的RT变长
	grep -v 'HTTP/1.1" 200'	取出非200响应码的URL
	pgm -A -f $应用集群名称 "grep "'301' log文件地址\| wc -l"	查看整个集群的log中301状态码的数量
	ps -efL \| grep [PID] \| wc -l	查看某个进程创建的线程数
	find / -type f -name " * .log"\| xargs grep "ERROR"	统计所有的log文件中，包含Error字符的行	这个在排查问题过程中比较有用
	jstat -gc [pid]	查看gc情况
	jstat -gcnew [pid]	查看young区的内存使用情况，包括MTT(最大交互次数就被交换到old区)，TT是目前已经交换的次数
	jstat -gcold	查看old区的内存使用情况
	jmap -J-d64 -dump:format=b,file=dump.bin PID	dump出内存快照	-J-d64防止jmap导致虚拟机crash(jdk6有bug)
	-XX:+HeapDumpOnOutOfMemeryError	在java启动时加入，当出现内存溢出时，存储内存快照
	jmap -histo [pid]	按照对象内存大小排序	注意会导致full gc
	gcore [pid]	导出完成的内存快照	通常和`jmap -permstat /opt/ ** /java gcore.bin`一起使用，将core dump转换成heap dump
	-XX:HeapDumpPath=/home/logs -Xloggc:/home/log/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps	在Java启动参数中加入，打印gc日志
	-server -Xms4000m -Xmx4000m -Xmn1500m -Xss256k -XX:PermSize=340m -XX:MaxPermSize=340m -XX:+UseConcMarkSweepGC	调整JVM堆大小	xss是栈大小

图片

java后端常用线上问题排查命令

free

交换空间(swap space)

vmstat（推荐）

procs

memory

swap

io

system

CPU

sar

CPU瓶颈

查看机器cpu核数

查看CPU信息（型号）

查看物理CPU个数

查看每个物理CPU中core的个数(即核数)

查看逻辑CPU的个数

top

计算在cpu load里面的uninterruptedsleep的任务数量

sar

定位线上最耗CPU的线程

准备工作

通过top命令找到最耗时的进程

找到进程中最耗CUP的线程

获取线程id的十六进制码

查看线程堆栈信息

网络瓶颈

定位丢包，错包情况

查看路由经过的地址

查看网络错误

包的重传率

磁盘瓶颈

查磁盘空间

查看磁盘剩余空间

查看磁盘已使用空间

查看磁盘读写情况

查看磁盘总体读写情况

查看磁盘详细读写情况

查看最耗IO的进程

应用瓶颈

查看某个进程的PID

查看特定进程的数量

查看线程是否存在死锁

查看某个进程的线程数

统计所有的log文件中，包含Error字符的行

应用启动时指定JVM参数

总结

你可能感兴趣的:(java后端常用线上问题排查命令)

通过`top`命令找到最耗时的进程