性能指标分析--CPU篇(一)

一、CPU简介

CPU又称为中央处理器,是一块超大规模的集成电路,是一台计算机的运算核(Core)和控制核心( Control Unit)。它的功能主要是解释计算机指令以及处理计算机软件中的数据。

影响 cpu 性能的主要因素分两大块:主频、架构;
Cpu 的结构主要由运算器、控制器、寄存器三大块组成

  • 控制单元:是整个 cpu 的指挥控制中心,由指令寄存器 IR(Instruction Register)、指 令译码器 ID(Instruction Decoder)和操作控制器 OC(Operation Controller)等
  • 运算单元:是运算器的核心,执行运算操作
  • 存储单元:包括 CPU 片内缓存和寄存器组


    image.png

二、cpu的性能指标

1、cpu使用率

image.png

1.1 用户cpu使用率--us&ni:
包括用户态cpu使用率(user)和低优先级用户态cpu使用率(nice),表示cpu在用户态运行的时间百分比。用户cpu使用率高,通常说明应用程序比较繁忙。

运算很多或业务逻辑比较复杂(代码、业务需要调整)、 GC回收

1.2 系统cpu使用率--sy:
表示cpu在内核态运行的时间百分比(不包括中断),系统cpu使用率高说明内核比较繁忙。可能有上下文问题:

  • 自愿上下文: 资源不够,导致自愿上下文切换,内存瓶颈
  • 非自愿上下文: 可能会 cpu瓶颈
  • pidstat可进一步分析

1.3 等待I/O的cpu使用率--wa:
通常也称为iowait,表示等待I/O的时间百分比。iowait高,通常说明系统与硬件设备的I/O交互时间比较长。I/O问题(磁盘\网络\外设)

1.4 软中断和硬中断的cpu使用率--hi&si:
分别表示内核调用软中断、硬中断处理程序的四件百分比,他们的使用率高,通常说明系统发生了大量的中断。

1.5 虚拟化环境中用到的窃取cpu使用率(steal)和客户cpu使用率(guest),分别表示被其他虚拟机占用的cpu时间百分比,和运行客户虚拟机的cpu时间百分比。--st

2 、平均负载

也就是系统平均活跃进程数。理想情况,平均负载等于逻辑cpu个数,这表示每个cpu都恰好被充分使用。如果平均负载大于逻辑cpu的个数,就表示负载比较重了。

3 、上下文切换

本身是保证linux正常运行的一项核心功能。但过多的上下文切换,会将原本运行的cpu时间,消耗在寄存器、内核栈以及虚拟内存数据保存和恢复上,缩短进程真正运行的时间,成为性能瓶颈。

  • 进程上下文切换:
    • 进程在cpu中 寄存器 程序计算器的切换
    • 同进程上下文切换: 进程用户态 ---系统调用--> 进程内核态 ---系统调用---> 进程用户态
    • 不同进程上下文切换:进程切换时要保存进程用户态资源(虚拟内存、栈等)
  • 线程上下文切换
    • 线程是cpu调度的基本单位
    • 进程是资源的拥有者:
      • 一个进程的不同线程,这个时候线程上下文切换只需要保存线程私有的资源
      • 不同进程之间的线程上下文切换,像进程上下文切换一样
  • 中断上下文切换
    • 中断: 缺页中断。保存现在执行的结果的资源。

4 、cpu缓存命中率

cpu缓存:
CPU缓存是CPU和内存之间的临时存储器,虽然缓存的容量不能与内存和硬盘相比,但是交换速度却比它们快得多了,CPU缓存就是为了更快的连接CPU与内存而存储在中间媒介。简单来说,因为CPU的速度快,而内存的速度较慢,这时CPU缓存来解决这个问题,减少了CPU的等待时间,变相的提高了CPU的性能。

为了从成本、性能、容量还有面积上来进行平衡,目前主流的CPU才采用层级缓存结构,一般缓存分为一级缓存、二级缓存、三级缓存,其中L1和L2常用在单核中,L3则用在多核中,它们之间的速度依次递减,容量依次递增。

缓存的命中率,衡量的是cpu缓存的复用情况,命中率越高,则表示性能越好。

三、cpu性能问题分析流程

在实际的测试环境中,平均负载多高,需要我们关注哪些?
当平均负载高于CPU数量的 70%的时候,需要分析排查负载过高的原因,一旦负载过高,就会导致进程响应变量变慢,进而影响相应的正常功能。

分析思路和步骤:
(1)使用top分析CPU使用率,如果user%+sys%使用率过高,查看CPU使用过高的进程;
(2)使用top分析CPU平均负载,如果load average平均负载过高,可以辅助通过sar查看运行队列和平均负载,如果运行队列大于CPU个数且平均负载过高,查看CPU使用过高的进程;
(3)若CPU使用率过高或者CPU平均负载过高,通过vmstat确认系统的当前的上下文切换(cs)、中断次数(in);
(4)若上下文切换次数过大,通过 pidstat 查看是哪个进程或线程的切换次数过高并明确上下文切换过大的类型;
(5)若中断次数过大,通过top分析中断的类型,再通过 /proc/interrupts或/proc/softirqs分析是哪种中断类型;
(6)扩充:通过top监测僵尸进程,查看S列对应的进程名称和对应的进程号PID,再追踪该僵尸进程定位问题原因;


image.png

你可能感兴趣的:(性能指标分析--CPU篇(一))